Страница 1: Тест и обзор: два Intel Xeon Platinum 8380 против предшественников

ice-lake-spВ начале апреля Intel представила третье поколение процессоров Xeon Scalable. Они опираются на дизайн Ice Lake SP, содержат до 40 ядер Sunny Cove и предлагают 64 линии PCI Express 4.0 вместе с быстрым 8-канальным интерфейсом памяти. Посмотрим, какую производительность покажут два топовых Xeon Platinum 8380 с 40 ядрами. Мы проведем сравнение с двумя предшествующими поколениями, которые предлагают по 28 ядер каждое.

Также у нас готов сервер на EPYC из линейки 7003, чуть позднее мы представим сравнительные результаты конкурента AMD. Однако на это уйдет еще несколько дней, поскольку серверные тесты не совсем простые и требуют значительного времени.

Процессоры Ice Lake-SP хорошо демонстрируют проблемы, которые Intel получила с 10-нм техпроцессом, поскольку третье поколение Xeon Scalable появилось слишком поздно. Intel использовала данное поколение для изменения платформы и частичной переориентации, поскольку следующее поколение Sapphire Rapids выходит уже в конце 2021 года.

Подписывайтесь на группы Hardwareluxx ВКонтакте и Facebook, а также на наш канал в Telegram (@hardwareluxxrussia).

Ice Lake и Sunny Cove

Поколение Ice Lake должно было перевести на новую архитектуру все сегменты еще в 2017 году: ноутбуки, настольные ПК и серверы. Однако возникли проблемы с 10-нм техпроцессом, которые до сих пор полностью не преодолены. Все же здесь мы получаем негативные последствия подхода Integrated Device Manufacturer (IDM), когда производство и разработка чипов находятся под одной крышей. Но Intel все же видит в IDM больше положительных сторон, скоро компания перейдет на концепцию IDM 2.0. И к 2023/24 году Intel планирует вернуть себе роль технологического лидера. С 7-нм техпроцессом Intel собирается догнать других производителей полупроводников и преодолеть все существующие проблемы, которые вряд ли можно было бы проиллюстрировать лучше, чем процессорами Rocket Lake-S.

Но процессоры Ice Lake-H для ноутбуков с более чем четырьмя ядрами так и не вышли, как и модели Ice Lake-S для настольных ПК. Впрочем, с процессорами Xeon на Ice Lake Intel все же смогла выполнить план. Первые процессоры были отгружены клиентам еще в четвертом квартале 2020, произведено уже больше 200.000 чипов.

Для Intel архитектура Sunny Cove является первым существенным изменением базовой архитектуры CPU со времен Skylake в 2015 году. Шесть лет Intel продолжала улучшать архитектуру Skylake, несмотря на критику чиповый гигант все же смог существенно увеличить производительность архитектуры Skylake по сравнению с первым поколением CPU вплоть до итерации Comet Lake Refresh, которые оставались актуальными на настольном сегменте до недавнего выхода Rocket Lake-S. То же самое касается и улучшения 14-нм техпроцесса, поскольку архитектура Skylake хотя и вышла на 10-нм в гомеопатических дозах в виде Canon Lake, оптимизации между 14nm+, 14nm++ и 14nm+++ были весьма существенными. 14-нм процессоры Rocket Lake-S достигают частоты до 5,3 ГГц на одиночных ядрах и до 5,1 ГГц на всех восьми ядрах.

Однако теперь Sunny Cove знаменует переход на новую архитектуру, хотя и ей уже исполнилось два года. Intel внесла ряд изменений, специфичных для Xeon.

Intel для Sunny Cove использует 5-wide конвейер с внеочередным выполнением. В нем теперь имеются четыре станции Unified Reservation Stations (RS), что позволяет добиться лучшего параллелизма выполнения инструкций, чем в случае Skylake. Возможно, для предотвращения уязвимостей Spectre, Intel выделила четыре фиксированных порта для AGU (Address Generation Unit). К каждой паре AGU привязан блок чтения/записи (Load/Store). Для вычислений VEC и INT теперь присутствуют дополнительные вычислительные блоки на соответствующих портах. Все эти меры призваны увеличить производительность архитектуры.

Передняя часть конвейера получила большую емкость, Intel оптимизировала предсказания ветвлений. Вычислительные блоки Ice Lake были увеличены по двум измерениям: глубина и ширина конвейера, сейчас процессоры могут выполнять больше инструкций и поддерживают больше наборов инструкций.

Intel увеличила кэши и буферы по сравнению с Cascade Lake. Теперь они могут вмещать больше данных, количество блоков Load/Store было увеличено. В этом кроется одно из изменений Ice Lake-SP по сравнению с вышедшей ранее потребительской версией: кэш L2 увеличился с 512 кбайт до 1,25 Мбайт на ядро. В случае Cascade Lake емкость составляла 1 Мбайт на ядро.

Также Sunny Cove поддерживает новые наборы команд ISA. Среди них Vector-AES и SHA-NI, но также и AVX512. Первые два обеспечивают аппаратное ускорение шифрования и дешифровки. В результате мы должны получить ускорение многих алгоритмов криптографии, что как раз соответствует упомянутым Intel оптимизациям под специальные приложения.

Тесты серверов

Здесь сразу же хотелось бы обговорить важный аспект. Тесты серверов во многом отличаются от бенчмарков обычных компонентов. Проблема не только в том, как сделать сравнение наиболее эффективным и весомым, но и в более сложных требованиях.

Например, в сфере настольных ПК есть приложения (и игры), где имеет смысл отключать Hyper Threading (Intel) или Simultaneous Multithreading (AMD), но для большинства приложений два потока на одно ядро дают выигрыш, поскольку позволяют использовать ресурсы наиболее эффективно. В случае серверных приложений все иначе. Здесь многое зависит от того, поддерживает приложение HT/SMT или нет. И количество приложений, которые выигрывают от Hyper-Threading, не так велико по сравнению с настольным сегментом. Многие приложения запрограммированы так, чтобы выполнять один поток на ядро. Данная тенденция видна по серверным процессорам ARM. Здесь последние модели вообще лишились поддержки SMT. Кроме того, отключение HT или SMT предотвращает многие атаки по сторонним каналам.

Еще один уровень сложности добавляет Non-Uniform Memory Access или NUMA. Причем не только в многоскетных системах, где работает больше одного процессора. AMD столкнулась с проблемами первого поколения EPYC из-за дизайна, поскольку данные могли находиться в области оперативной памяти, которая подключена не напрямую к кристаллу, а доступна через NUMA. Такое обращение негативно сказывается на задержках и пропускной способности памяти.

Программное обеспечение должно знать о существовании нескольких кластеров NUMA и реагировать соответствующим образом, чтобы данные хранились там, где до них можно быстрее всего добраться. Если же программа не знает о кластерах NUMA, доступ к данным может осуществляться с увеличенными задержками и сниженной пропускной способностью. Данная тема добавляет еще один уровень сложности, если рассматривать не только доступ к оперативной памяти, но и данные в крупных кэшах. Здесь следует учитывать так называемые Sub NUMA Clusters (SNC). Intel предоставляет два SNC на сокет с современными процессорами Xeon. В случае системы 2S используются четыре кластера NUMA. Опять же, если программа знает о наличии кластеров NUMA, то данные можно хранить с высокой степенью оптимизации, что повышает производительность. Но если это не так, то SNC следует отключать. Что верно для большинства приложений.

Следует поговорить о взаимодействии программного и аппаратного обеспечения. Процессоры Intel, например, поддерживают AVX 512, то есть специальные наборы команд, которые приводят к существенному ускорению вычислений. Если приложение оптимизировано, то прямое сравнение между процессорами Xeon и EPYC затрудняется. Конечно, можно встать на позицию "я хочу сравнение 1:1 без поддержки AVX-512", либо все же дать возможность железу проявить себя в полную силу.

То же самое касается настроек компилятора для тестовых приложений. AMD предлагает оптимизированные настройки, как и Intel. Поэтому сравнивать 1:1 не всегда просто. Впрочем, следует помнить: аппаратное обеспечение всегда должно работать с максимально раскрытым потенциалом производительности. В конце концов, облачный провайдер или клиент заинтересованы в том, чтобы выжать максимум.

Все упомянутые выше аспекты играют важную роль в тестах, и их стоит обговаривать для каждого бенчмарка. Теперь позвольте перейти к нашей тестовой системе.

Intel предоставила нам эталонную тестовую систему Ice Lake под названием S2W3SIL4Q. Двухсокетная система содержит два Xeon Platinum 8380 на 40 ядер каждый. В качестве оперативной памяти установлены 16 32-Гбайт планок HMA84GR7CJR4N-XN. Опционально мы добавили 16x 128 Гбайт Optane Persistent Memory 200, с которой провели отдельный тест. Питание обеспечивается двумя блоками мощностью 2.100 Вт каждый. В систему установлен Intel SSD P5510 на 7,68 TB, SSD D3-S4610 на 960 GB и два Optane SSD P5800X на 800 GB каждый. Подключение к сети обеспечивается Intel E810-CQDA2 NIC.

Обзор Skylake-SP и Cascade Lake-SP

Мы уже провели несколько тестов серверных процессоров. В том числе сравнили два Xeon Platinum 8280 с предшественниками Xeon Platinum 8180. Переход со Skylake-SP на Cascade Lake-SP почти не давал прирост производительности за исключением тестов DL Boost. В случае Ice Lake-SP теперь появляется новая архитектура.

Процессоры Xeon Platinum 8180 и 8280 имеют по 28 ядер и могут обрабатывать 56 потоков. Поскольку они оба устанавливаются в сокет LGA3647 и работают на платформе Purley, мы тестировали их на идентичной материнской плате (мы использовали Supermicro X11DAi-N) с одинаковой конфигурацией памяти. Но Xeon Platinum 8180 работали с памятью на 2.666 МГц, а Xeon Platinum 8280 на 2.933 МГц. Все подробности конфигураций можно посмотреть здесь.

Разница у нас была не только по платформе, но и по охлаждению. Мы тестировали процессоры LGA3647 в собранной самостоятельно системе. Два Ice Lake SP установлены в стоечный сервер высотой 2U. Впрочем, отличия по уровню шума и температуре важной роли в сегодняшнем сравнении не играют. Единственное, мы убедились, что обе платформы и три поколения Xeon не уходят в температурный троттлинг. Для процессоров LGA3647 мы использовали два мощных кулера Noctua NH-U12S DX-3647. Даже под полной нагрузкой процессоры не нагревались выше 60 °C на 2.000 об/мин. Так что они были вполне на уровне с процессорами Ice Lake в стойке.

Для тестов Xeon Platinum 8180 и 8280 верно все сказанное выше по поводу настроек Hyper-Threading, SNC и компиляторов.