> > > > Новые результаты тестов HPC от Intel не выдерживают критики (обновление)

Новые результаты тестов HPC от Intel не выдерживают критики (обновление)

Опубликовано:

xeon-w-3175xМаркетинговый отдел Intel сравнил производительность собственных high-end процессоров Xeon с моделями AMD. Поводом для подобного сравнения стал вопрос о необходимости большего числа ядер. Современные процессоры AMD EPYC обеспечивают до 64 ядер, что в двухсокетной системе дает 128 ядер и 256 потоков. Intel усомнилась в том, что подобное большое число ядер всегда дает преимущества, подкрепив тезис собственными тестами.

Как считает Intel, здесь следует учитывать другие факторы. В том числе производительность отдельных ядер, возможность оптимизации программного обеспечения под аппаратные ресурсы, пропускную способность памяти и возможность масштабирования подобных систем в кластере (более двух сокетов).

В частности, сравнивались два процессора Xeon Platinum 9282 и два EPYC 7742. Два процессора Xeon относятся к линейке 9200, они имеют дизайн MCM, то есть два кристалла Xeon расположены в одной корпусировке. В результате для каждого CPU Xeon мы получаем 2 x 28 = 56 ядер, 12-канальный интерфейс памяти работает с пропускной способностью 407 Гбайт/с.

Сравнение процессоров Xeon Scalable 2-го поколения
Модель Ядра/ потоки Базовая частота/ Turbo Кэш L3 TDPПропускная способность памятиЦена
Xeon Platinum 9282 56 / 112 2,6 / 3,8 ГГц 77 MB 400 Вт407 Гбайт/с-
EPYC 7742 64 / 128 2,25 / 3,4 ГГц 256 MB 225 Вт204,8 Гбайт/с€7.500 (530.000 ₽)

Два EPYC 7742 оснащены 64 ядрами каждый, работают с восьмиканальным интерфейсом. На сокет мы получаем пропускную способность 204,8 Гбайт/с, то есть существенно меньше, что будет видно и по тестам. Есть и существенные отличия по тепловому пакету. В случае EPYC 7742 TDP составляет 225 Вт, у Xeon Platinum 9282 мы получаем 400 Вт.

Процессоры EPYC 7742 можно купить в рознице и установить на совместимую материнскую плату, но найти Xeon Platinum 9282 гораздо сложнее, если вообще возможно. Intel продает процессоры только в готовых серверных системах, таких как S9200WK. Процессор не устанавливается в сокет, а припаивается к материнской плате.

Как показывают тесты, два Xeon Platinum 9282 на 8-84% быстрее двух EPYC 7742. В зависимости от сценария, разница не такая большая. При этом не мешает учитывать цену и энергопотребление.

Важную роль играют расширения AVX-512. Если приложение умеет их использовать, то получает значительный прирост производительности. Современные процессоры Intel Xeon поддерживают AVX-512, чего нельзя сказать о процессорах EPYC.

В таблице приведены используемые тесты. Причем отмечено, получает ли приложение прирост от наличия AVX-512. Также указано, ограничивается ли приложение вычислительной производительностью или пропускной способностью памяти.

Intel уверенно заявляет о своем лидерстве в сфере HPC. Производительность существенно выше, что связано с высокой производительностью отдельных ядер как с AVX-512, так и без данного набора команд, а также с более широким интерфейсом памяти и большей пропускной способностью памяти.

Цены линейки Xeon Platinum нам неизвестны. Intel здесь ссылается на партнеров Atos, HPE/Cray, Lenovo, Inspur, Sugon, H3C и Penguin Computing. Но можно предположить, что Xeon Platinum 9282 стоят существенно дороже €7.500 (530.000 ₽) процессора EPYC 7742. В любом случае, во внимание следует принимать общую стоимость владения TCO. Вычислительная плотность Intel выше, затраты на интерконнект между кластерами ниже. Итог таков:

"More processor cores do not always translate to higher performance, and nor do more processor cores always translate to better TCO." Перевод: больше процессорных ядер не всегда дают более высокую производительность, не говоря уже о том, что больше ядер не всегда приводят к улучшению TCO.

На грядущей конференции Supercomputing 19 в середине ноября будут новые анонсы поводу линейки Xeon Platinum 9200.

Неоптимизированные тесты и спорные аппаратные решения

Однако эксперты присмотрелись к составу тестов и примечаниям, опубликованным Intel. В частности, использовалась старая версия GROMACS, программного пакета симуляции молекулярной динамики. Intel выбрала версию GROMACS 2019.3, но уже сравнительно давно есть GROMACS 2019.4, которая оптимизирована под новые процессоры EPYC. В последней версии используются функциональные блоки AVX2 архитектуры Zen 2. Разработчик GROMACS упомянул следующее примечание в Release Notes последней версии.

"The AMD Zen 2 architecture is now detected as different from Zen 1 and uses 256-bit wide AVX2 SIMD instructions (GMX_SIMD=AVX2_256) by default. Also the non-bonded kernel parameters have been tuned for Zen 2. This has a significant impact on performance. "

Конечно, было бы интересно взглянуть на сравнительные результаты двух EPYC 7742 в оптимизированной версии приложения. Наши коллеги ServeTheHome выполнили более глубокий анализ производительности, но у них не было двух процессоров Xeon Platinum 9282, чтобы провести собственные тесты.

Кроме того, Intel, похоже, активировала только два потока на ядро в случае системы с двумя Xeon Platinum 9282, но только один поток на ядро для двух EPYC 7742. О чем гласит комментарий под слайдом:

Intel Xeon Platinum 9282 processor: Intel Compiler 2019u4, Intel® Math Kernel Library (Intel MKL) 2019u4, Intel MPI 2019u4, AVX-512 build, BIOS: HT ON, Turbo OFF, SNC OFF, 2 threads per core; 

AMD EPYC 7742: Intel Compiler 2019u4, Intel MKL 2019u4, Intel MPI 2019u4, AVX2 build, BIOS: SMT ON, Boost ON, NPS 4, 1 threads per core.

То есть мы сравниваем 224 потока против 128 потоков, что не позволяет полностью задействовать потенциал системы 2S EPYC с возможными 256 потоками. Другие настройки пакета GROMACS тоже можно назвать спорными, как указывает ServeTheHome. Одно это уже выставляет результаты Intel в нехорошем свете.

Конечно, AMD тоже не без греха. На предварительной демонстрации новых процессоров EPYC были опубликованы результаты тестов NAMD (Nanoscale Molecular Dynamics Program). И там в случае процессоров Intel использовалась версия, которая не использует наборы инструкций AVX 512, то есть не оптимизирована под процессоры Xeon.

С одной стороны, корректно использовать одинаковые программные пакеты и тесты для обеих систем. С другой стороны, серверные приложения изначально разрабатываются с учетом оптимизации под платформы. Разработчики софта HPC постоянно работают над тем, чтобы максимально полно раскрыть возможности аппаратных платформ. Это верно для процессоров как Intel, так и AMD. Соответственно, корректно использовать оптимизированные программные пакеты под каждую платформу. Тем более Intel вряд ли получит какие-либо недостатки из-за перехода на новую версию GROMACS 2019.4, поскольку она поддерживает и набор команд AVX-512.

Наконец, Intel для двух процессоров EPYC выбрала сервер Supermicro AS-2023-TR4 с материнской платой HD11DSU-iN. Она использовалась в версии 2.0 с поддержкой новых процессоров EPYC, однако плата по-прежнему не поддерживает PCI Express 4.0. Какие-либо вычислительные ускорители или накопители, которые бы выиграли от поддержки PCI Express 4.0, в тестах не использовались, но все равно следует опираться на современную аппаратную платформу, чтобы избежать нападок критиков с этой стороны.

В итоге возникает вопрос, намеренно ли Intel выставляет продукт конкурента в таком свете, или мы просто имеем дело с ошибкой? В случае программного пакета GROMACS ошибка вряд ли имеет место, поскольку последняя версия была представлена еще 2 октября 2019. Даже если результаты тестов были получены ранее, их следовало бы переделать. Возникает ощущение, что Intel пошла на использование старой версии пакета намеренно.

Ранее мы уже опубликовали подобное исследование Intel на тему того, что больше восьми ядер для игр не требуется. Как видим, к продуктам отдела маркетинга Intel следует подходить скрупулезно, анализируя каждую деталь. Вопросов возникает немало.

Обновление:

Intel внесла коррективы в результаты и сделала некоторые пояснения.

Были повторены тесты GROMACS в версии 2019.4, при этом существенного изменения результатов не произошло. Вместе с тем число потоков на ядро для процессоров EPYC в тесте является опечаткой. Процессоры Xeon и EPYC тестировались с двумя потоками на ядро.