К чёрту бенчмарки смартфонов: почему «‎попугаи» уже давно ничего не решают

Термин бенчмарк в широком понимании подразумевает специальный эталонный тест (англ. benchmark — эталон) для измерения эффективности различных систем и формирования шкалы оценки для их последующего сравнения.

⚡️Новости из мира гаджетов, обзоры, гайды и не только — в телеграм-канале «Технологии | Лайфхакер».

Сначала появились компьютерные бенчмарки, но с распространением смартфонов возникла необходимость и в мобильных аналогах. Одним из первых стал китайский AnTuTu, позже добавились «младшие» версии известных компьютерных тестов 3DMark, PCMark, Geekbench. Все они, помимо подробных сведений о смартфоне, позволяют оценить производительность процессора, видеочипа, памяти, накопителя, а также протестировать другие компоненты.

Результаты общих тестов обычно представлены в виде абстрактных баллов, которые иронично называют «попугаями» — с отсылкой к старому мультфильму, где удава измеряли в птицах, мартышках и слонах.

Однако всё меньше пользователей и экспертов доверяют бенчмаркам. Сейчас они почти утратили свою актуальность, и вот почему.

Производительность смартфонов выровнялась

Развитие мобильных чипсетов привело к достижению так называемого порога достаточности, и теперь почти любые смартфоны обеспечивают необходимую производительность для повседневных задач вроде проверки социальных сетей, просмотра видео, работы с мессенджерами и браузером.

Как следствие, устройства одной ценовой категории работают плюс-минус одинаково быстро. Более того, даже между среднебюджетными смартфонами и флагманами разница в быстродействии почти незаметна для обычного человека.

А если говорить о сравнении топовых устройств, то различия едва ли уловимы — производители давно упёрлись в тот предел мощности, когда последующее наращивание уже не даёт ощутимых изменений.

Бенчмарки не оценивают реальное быстродействие

Сравнение устройств в тестах AnTuTu. Кадр: Versus / YouTube

Главная претензия к бенчмаркам — сугубо синтетические тесты, которые мало того что проводятся в идеальных условиях, так ещё и редко встречаются в реальной жизни.

Например: работа процессора на максимальной частоте, кодирование видео или шифрование больших объёмов данных. В то время как более важные плавность интерфейса, скорость открытия приложений и взаимодействия с ними в режиме многозадачности искусственные сценарии не учитывают. Фоновые процессы, нагрев, микрофризы — всё это тоже игнорируется.

Баллы, которые мы видим в результатах бенчмарков, и есть пресловутые попугаи. Они почти полностью оторваны от реальности, а интерпретировать их для понимания фактической производительности довольно сложно, если не невозможно. Именно поэтому выбирать смартфон, ориентируясь на баллы в тестах, — худшее, что можно придумать.

Высокие оценки не гарантируют хороший пользовательский опыт

Информативность бенчмарков довольно сомнительна. Рекордные баллы создают иллюзию безупречного опыта использования, тогда как на деле всё может быть иначе, поскольку зависит от многих других факторов.

Ключевую роль играют оптимизация софта и удобство оболочек, которые в смартфонах каждого производителя различаются. Нередко устройство с меньшим количеством баллов приятнее и отзывчивее в работе.

Кадр из презентации Xiaomi, которая хвалится высочайшим результатом Redmi K60 Ultra в AnTuTu

Плавность работы измерить никак нельзя, поэтому производители, особенно китайские бренды, упорно продолжают хвастаться рекордами в AnTuTu прямо на презентации новинок — да ещё с фанфарами и звуковым эффектом взрыва.

Тесты не учитывают производительность в реальной жизни

Существенный недостаток большинства бенчмарков в том, что процесс тестирования длится всего несколько минут и не отражает условий реальной эксплуатации. Бенчмарки выполняются на стерильных устройствах с пустым накопителем, без установленных приложений и фоновых процессов.

Не учитывается не только нагрев при длительной работе, но и «замусоренность» памяти, падение производительности под влиянием постоянной активности сервисов Google и китайских аналогов, а также естественная деградация аккумулятора, способная влиять на производительность процессора.

Идеальные результаты, полученные единожды, не гарантируют такие же через несколько недель или месяцев, не говоря уже о более длинных дистанциях в 2–3 года.

То же самое относится и к автономности, которая важна не менее, чем быстродействие. Краткосрочные непрерывные тесты аккумуляторов совершенно не объективны, поскольку не учитывают индивидуальные привычки пользователей, разные режимы работы и постепенное химическое старение батареи.

Производители оптимизируют устройства под бенчмарки

Повальное увлечение тестами привело к тому, что бренды стали хитрить. Они добавляют алгоритмы, которые распознают запуск популярных бенчмарков и переключают смартфоны в режим максимального быстродействия для достижения лучших результатов любой ценой. В реальной жизни их, разумеется, никогда не будет.

В тестах временно повышается тактовая частота процессора, отключаются или снижаются температурные ограничения, а процесс бенчмарка получает максимальный приоритет перед системными или обычными приложениями.

Ещё в 2013‑м Samsung уличили в оптимизации работы смартфона Galaxy S4 в тестах: они разблокировали недоступную в обычной жизни частоту графического процессора и улучшили тем самым результаты на 11%. Китайские компании давно переняли этот опыт.

Маркетологи тоже не гнушаются подтасовкой фактов. Часто в рекламных кампаниях используют лишь выгодные, громкие показатели, а не столь впечатляющие опускаются. Та же Apple на презентациях сопоставляет мощность новых устройств с абстрактными смартфонами «других производителей». Либо сравнивает свой флагман не с предыдущим, а со старшим на два-три поколения, чтобы показать прирост производительности в три, а то и в пять раз.

Что дальше будет с бенчмарками

Вероятно, время безоговорочного доверия бенчмаркам подходит к концу. И хотя тесты по-прежнему дают определённую информацию о технических характеристиках, очевидно, что они не способны спрогнозировать реальный пользовательский опыт.

Пример с куда более полезным тестом, где проверяется скорость последовательного запуска различных приложений на двух смартфонах. Кадр из видео PhoneBuff / YouTube

Гораздо релевантнее становятся полноценные тесты в разных сценариях повседневной эксплуатации на протяжении недель и месяцев, которые проводят техноблогеры, а также отзывы реальных владельцев. В отрыве от этого бенчмарки не значат почти ничего. Только комплексный подход позволит оценить возможности смартфона.

А как вы относитесь к бенчмаркам? Расскажите в комментариях!

Журналисты сравнили камеры свежего Pixel 9 и прошлогоднего iPhone 15 Pro Max

8 причин, почему Xiaomi уже не топ

Автономность Google Pixel 9 и 9 Pro XL сравнили с iPhone 15 Pro Max и другими флагманами

15 крутых бюджетных смартфонов, которые не разочаруют

Какой iPhone купить в 2025 году: топ-7 моделей

Комментарии

Написать комментарий

Давлет В.

18.09.24 15:45

Лучше б стабильный компас сделали

+- Ответить

Артём Козориз

18.09.24 16:19

Верно подмечено, что одна из, согласен. А так аналогия с авто тоже хорошо подходит — по времени разгона до 100 км/ч не совсем правильно выбирать машину, вернее совсем не правильно, мягко говоря.

+1 - Ответить

Алексей Михайлов

18.09.24 18:22

Тем более что "попугаи" это не "разгон до сотни", а "максимальная скорость". Ещё более бесполезная метрика в мире авто.

axcap

19.09.24 10:15

Спасибо автору за статью. Хорошо написана, понятная подача. Всё объяснил тем, кто так рьяно пытается доказать, что попугаи объективно что-то решают. Это как бег на дальнюю дистанцию, когда первые пару сотен метров все бегут +/- одинаково быстро, но продолжать бежать в том же темпе может уже не каждый.

Читать все комментарии