Тест и обзор: два Intel Xeon Platinum 8380 против предшественников

ice-lake-sp В начале апреля Intel представила третье поколение процессоров Xeon Scalable. Они опираются на дизайн Ice Lake SP, содержат до 40 ядер Sunny Cove и предлагают 64 линии PCI Express 4.0 вместе с быстрым 8-канальным интерфейсом памяти. Посмотрим, какую производительность покажут два топовых Xeon Platinum 8380 с 40 ядрами. Мы проведем сравнение с двумя предшествующими поколениями, которые предлагают по 28 ядер каждое.

Также у нас готов сервер на EPYC из линейки 7003, чуть позднее мы представим сравнительные результаты конкурента AMD. Однако на это уйдет еще несколько дней, поскольку серверные тесты не совсем простые и требуют значительного времени.

Процессоры Ice Lake-SP хорошо демонстрируют проблемы, которые Intel получила с 10-нм техпроцессом, поскольку третье поколение Xeon Scalable появилось слишком поздно. Intel использовала данное поколение для изменения платформы и частичной переориентации, поскольку следующее поколение Sapphire Rapids выходит уже в конце 2021 года.

Подписывайтесь на группы Hardwareluxx ВКонтакте и Facebook, а также на наш канал в Telegram (@hardwareluxxrussia).

Ice Lake и Sunny Cove

Поколение Ice Lake должно было перевести на новую архитектуру все сегменты еще в 2017 году: ноутбуки, настольные ПК и серверы. Однако возникли проблемы с 10-нм техпроцессом, которые до сих пор полностью не преодолены. Все же здесь мы получаем негативные последствия подхода Integrated Device Manufacturer (IDM), когда производство и разработка чипов находятся под одной крышей. Но Intel все же видит в IDM больше положительных сторон, скоро компания перейдет на концепцию IDM 2.0. И к 2023/24 году Intel планирует вернуть себе роль технологического лидера. С 7-нм техпроцессом Intel собирается догнать других производителей полупроводников и преодолеть все существующие проблемы, которые вряд ли можно было бы проиллюстрировать лучше, чем процессорами Rocket Lake-S.

Но процессоры Ice Lake-H для ноутбуков с более чем четырьмя ядрами так и не вышли, как и модели Ice Lake-S для настольных ПК. Впрочем, с процессорами Xeon на Ice Lake Intel все же смогла выполнить план. Первые процессоры были отгружены клиентам еще в четвертом квартале 2020, произведено уже больше 200.000 чипов.

Для Intel архитектура Sunny Cove является первым существенным изменением базовой архитектуры CPU со времен Skylake в 2015 году. Шесть лет Intel продолжала улучшать архитектуру Skylake, несмотря на критику чиповый гигант все же смог существенно увеличить производительность архитектуры Skylake по сравнению с первым поколением CPU вплоть до итерации Comet Lake Refresh, которые оставались актуальными на настольном сегменте до недавнего выхода Rocket Lake-S. То же самое касается и улучшения 14-нм техпроцесса, поскольку архитектура Skylake хотя и вышла на 10-нм в гомеопатических дозах в виде Canon Lake, оптимизации между 14nm+, 14nm++ и 14nm+++ были весьма существенными. 14-нм процессоры Rocket Lake-S достигают частоты до 5,3 ГГц на одиночных ядрах и до 5,1 ГГц на всех восьми ядрах.

Однако теперь Sunny Cove знаменует переход на новую архитектуру, хотя и ей уже исполнилось два года. Intel внесла ряд изменений, специфичных для Xeon.

Intel для Sunny Cove использует 5-wide конвейер с внеочередным выполнением. В нем теперь имеются четыре станции Unified Reservation Stations (RS), что позволяет добиться лучшего параллелизма выполнения инструкций, чем в случае Skylake. Возможно, для предотвращения уязвимостей Spectre, Intel выделила четыре фиксированных порта для AGU (Address Generation Unit). К каждой паре AGU привязан блок чтения/записи (Load/Store). Для вычислений VEC и INT теперь присутствуют дополнительные вычислительные блоки на соответствующих портах. Все эти меры призваны увеличить производительность архитектуры.

Передняя часть конвейера получила большую емкость, Intel оптимизировала предсказания ветвлений. Вычислительные блоки Ice Lake были увеличены по двум измерениям: глубина и ширина конвейера, сейчас процессоры могут выполнять больше инструкций и поддерживают больше наборов инструкций.

Intel увеличила кэши и буферы по сравнению с Cascade Lake. Теперь они могут вмещать больше данных, количество блоков Load/Store было увеличено. В этом кроется одно из изменений Ice Lake-SP по сравнению с вышедшей ранее потребительской версией: кэш L2 увеличился с 512 кбайт до 1,25 Мбайт на ядро. В случае Cascade Lake емкость составляла 1 Мбайт на ядро.

Также Sunny Cove поддерживает новые наборы команд ISA. Среди них Vector-AES и SHA-NI, но также и AVX512. Первые два обеспечивают аппаратное ускорение шифрования и дешифровки. В результате мы должны получить ускорение многих алгоритмов криптографии, что как раз соответствует упомянутым Intel оптимизациям под специальные приложения.

Тесты серверов

Здесь сразу же хотелось бы обговорить важный аспект. Тесты серверов во многом отличаются от бенчмарков обычных компонентов. Проблема не только в том, как сделать сравнение наиболее эффективным и весомым, но и в более сложных требованиях.

Например, в сфере настольных ПК есть приложения (и игры), где имеет смысл отключать Hyper Threading (Intel) или Simultaneous Multithreading (AMD), но для большинства приложений два потока на одно ядро дают выигрыш, поскольку позволяют использовать ресурсы наиболее эффективно. В случае серверных приложений все иначе. Здесь многое зависит от того, поддерживает приложение HT/SMT или нет. И количество приложений, которые выигрывают от Hyper-Threading, не так велико по сравнению с настольным сегментом. Многие приложения запрограммированы так, чтобы выполнять один поток на ядро. Данная тенденция видна по серверным процессорам ARM. Здесь последние модели вообще лишились поддержки SMT. Кроме того, отключение HT или SMT предотвращает многие атаки по сторонним каналам.

Еще один уровень сложности добавляет Non-Uniform Memory Access или NUMA. Причем не только в многоскетных системах, где работает больше одного процессора. AMD столкнулась с проблемами первого поколения EPYC из-за дизайна, поскольку данные могли находиться в области оперативной памяти, которая подключена не напрямую к кристаллу, а доступна через NUMA. Такое обращение негативно сказывается на задержках и пропускной способности памяти.

Программное обеспечение должно знать о существовании нескольких кластеров NUMA и реагировать соответствующим образом, чтобы данные хранились там, где до них можно быстрее всего добраться. Если же программа не знает о кластерах NUMA, доступ к данным может осуществляться с увеличенными задержками и сниженной пропускной способностью. Данная тема добавляет еще один уровень сложности, если рассматривать не только доступ к оперативной памяти, но и данные в крупных кэшах. Здесь следует учитывать так называемые Sub NUMA Clusters (SNC). Intel предоставляет два SNC на сокет с современными процессорами Xeon. В случае системы 2S используются четыре кластера NUMA. Опять же, если программа знает о наличии кластеров NUMA, то данные можно хранить с высокой степенью оптимизации, что повышает производительность. Но если это не так, то SNC следует отключать. Что верно для большинства приложений.

Следует поговорить о взаимодействии программного и аппаратного обеспечения. Процессоры Intel, например, поддерживают AVX 512, то есть специальные наборы команд, которые приводят к существенному ускорению вычислений. Если приложение оптимизировано, то прямое сравнение между процессорами Xeon и EPYC затрудняется. Конечно, можно встать на позицию "я хочу сравнение 1:1 без поддержки AVX-512", либо все же дать возможность железу проявить себя в полную силу.

То же самое касается настроек компилятора для тестовых приложений. AMD предлагает оптимизированные настройки, как и Intel. Поэтому сравнивать 1:1 не всегда просто. Впрочем, следует помнить: аппаратное обеспечение всегда должно работать с максимально раскрытым потенциалом производительности. В конце концов, облачный провайдер или клиент заинтересованы в том, чтобы выжать максимум.

Все упомянутые выше аспекты играют важную роль в тестах, и их стоит обговаривать для каждого бенчмарка. Теперь позвольте перейти к нашей тестовой системе.

Intel предоставила нам эталонную тестовую систему Ice Lake под названием S2W3SIL4Q. Двухсокетная система содержит два Xeon Platinum 8380 на 40 ядер каждый. В качестве оперативной памяти установлены 16 32-Гбайт планок HMA84GR7CJR4N-XN. Опционально мы добавили 16x 128 Гбайт Optane Persistent Memory 200, с которой провели отдельный тест. Питание обеспечивается двумя блоками мощностью 2.100 Вт каждый. В систему установлен Intel SSD P5510 на 7,68 TB, SSD D3-S4610 на 960 GB и два Optane SSD P5800X на 800 GB каждый. Подключение к сети обеспечивается Intel E810-CQDA2 NIC.

Обзор Skylake-SP и Cascade Lake-SP

Мы уже провели несколько тестов серверных процессоров. В том числе сравнили два Xeon Platinum 8280 с предшественниками Xeon Platinum 8180. Переход со Skylake-SP на Cascade Lake-SP почти не давал прирост производительности за исключением тестов DL Boost. В случае Ice Lake-SP теперь появляется новая архитектура.

Процессоры Xeon Platinum 8180 и 8280 имеют по 28 ядер и могут обрабатывать 56 потоков. Поскольку они оба устанавливаются в сокет LGA3647 и работают на платформе Purley, мы тестировали их на идентичной материнской плате (мы использовали Supermicro X11DAi-N) с одинаковой конфигурацией памяти. Но Xeon Platinum 8180 работали с памятью на 2.666 МГц, а Xeon Platinum 8280 на 2.933 МГц. Все подробности конфигураций можно посмотреть здесь.

Разница у нас была не только по платформе, но и по охлаждению. Мы тестировали процессоры LGA3647 в собранной самостоятельно системе. Два Ice Lake SP установлены в стоечный сервер высотой 2U. Впрочем, отличия по уровню шума и температуре важной роли в сегодняшнем сравнении не играют. Единственное, мы убедились, что обе платформы и три поколения Xeon не уходят в температурный троттлинг. Для процессоров LGA3647 мы использовали два мощных кулера Noctua NH-U12S DX-3647. Даже под полной нагрузкой процессоры не нагревались выше 60 °C на 2.000 об/мин. Так что они были вполне на уровне с процессорами Ice Lake в стойке.

Для тестов Xeon Platinum 8180 и 8280 верно все сказанное выше по поводу настроек Hyper-Threading, SNC и компиляторов.

Intel Xeon Platinum 8380

Whiskey Lake Plattform
Coyote Pass Mainboard
Software Development Platform 2SW3SIL4Q
16x 32 GB SK Hynix HMA84GR7CJR4N-XN DDR4-3200
Intel Optane SSD DC P5800X 800 GB (OS)

Intel Xeon Platinum 8280

Supermicro X11DAi-N
12x 32 GB SK Hynix HMA84GR7CJR4N DDR4-2933
2x Noctua NH-U12S DX-3647
Intel Optane SSD 905P 960 GB (OS)

Intel Xeon Platinum 8180

Supermicro X11DAi-N
12x 32 GB SK Hynix HMA84GR7CJR4N DDR4-2666
2x Noctua NH-U12S DX-3647
Intel Optane SSD 905P 960 GB (OS)

Сравнение процессоров
	Xeon 8380	Xeon 8280	Xeon 8180
Архитектура	Ice Lake-SP	Cascade Lake-SP	Skylake-SP
Техпроцесс	10 нм	14 нм	14 нм
Базовая частота	2,9 ГГц	2,7 ГГц	2,5 ГГц
Частота Boost	3,4 ГГц	4,0 ГГц	3,8 ГГц
All Core Turbo	3,0 ГГц	3,3 ГГц	3,2 ГГц
TDP	270 Вт	205 Вт	205 Вт
Кэш L2	50 MB	28 MB	28 MB
Кэш L3	60 MB	38,5 MB	38,5 MB
Интерфейс памяти	8x DDR4-3200 4 TB DDR4 + 4 TB PMem	6x DDR4-2933 3 TB DDR4 + 3 TB PMem	6x DDR4-2666 768 GB DDR4
Интерфейс PCI Express	64 x PCI-Express 4.0	48x PCI-Express 3.0	48x PCI-Express 3.0
Подключение UPI	3x 11,2 GT/s	3x 10,4 GT/s	3x 10,4 GT/s
Цена	8.099 USD	10.009 USD	10.009 USD

В качестве операционной системы мы использовали Ubuntu.

Настройки тестов
	HT	SNC2
Y-Cruncher	Нет	Нет
Blender	Да	Нет
Embree	Нет	Нет
NAMD	Да	Нет
LAMMPS	Да	Да
Monte Carlo Simmulation	Да	Нет
AV1 Encoding	Нет	Нет
HEVCEncoding	Нет	Нет
VP9 Encoding	Нет	Нет
LLVM Compiling	Да	Нет
Apache	Нет	Да
PHP	Нет	Нет
SQL Lite	Да	Да
HammerDB	Нет	Нет
Aerospike	Да	Нет
Stream	Нет	Нет
MLC	Нет	Нет

Для большинства тестов мы использовали компилятор GCC 10.3. Для приложений на основе oneAPI мы выбрали компилятор Intel oneAPI DPC++/C++. В BIOS системы конфигурировались на максимальную производительность. Механизмы энергосбережения мы отключали. Linux Governor тоже был выставлен на максимальную производительность.

Новые процессоры Ice Lake SP содержат до 40 ядер Sunny Cove, инновации коснулись также интерфейса памяти и снижения задержек кэша L3 и памяти.

По сравнению с предыдущим поколением Xeon, Intel увеличила число каналов памяти с шести до восьми. На каждом канале могут использоваться два модуля. По частоте памяти Intel перешла с DDR4-2933 на DDR4-3200 - по крайней мере, для самых быстрых моделей Xeon. Для сравнения: AMD тоже поддерживает DDR4-3200 с процессорами EPYC, но только с одним модулем на канал. Увеличение пропускной способности памяти со снижением задержек - в этом кроется секрет нового контроллера памяти Intel.

Несколько процессоров Xeon связываются друг с другом в многосокетной системе через Ultra Path Interconnect (UPI). Intel обеспечила каждый CPU тремя каналами UPI, каждый на 11,2 GT/s. Ранее пропускная способность составляла 9,6 и 10,4 GT/s. Таким образом, Intel удалось немного ускорить скорость передачи данных в многосокетных системах. Еще одним важным фактором является поддержка PCI-Express 4.0 - через два года после того, как AMD перешла на PCI Express 4.0 со вторым поколением EPYC, обеспечив возможность более быстрого подключения дополнительных компонентов в системе. С 64 линиями PCI Express у процессоров Ice Lake Intel предлагает лишь половину того, что дает AMD. У двухсокетной системы число линий будет 128, поскольку Intel использует UPI для связи между сокетами. AMD предоставляет лишь 192 линий в режиме 2S, поскольку 64 линии PCIe выделены под связь двух сокетов.

Intel указывает чуть более высокие задержки кэша L1, поскольку для попадания требуется больше тактов, улучшений в кэше L2 по сравнению с Cascade Lake не произошло, поэтому у AMD имеется небольшое преимущество. Однако с процессорами EPYC следует внимательнее оценивать кэш L3, поскольку данные могут храниться как в локальном кэше L3 CCD, так и в других CCD. Локальная задержка L3 у AMD составляет 13,4 нс, у Intel - 21,7 нс. Однако если требуется передать данные с кэша другого CCD, то задержка 112 нс у AMD существенно выше. Здесь отлично видна разница между монолитным дизайном и чиплетами. Но следует отметить, что у AMD кэш L3 составляет до 256 Мбайт, а у Intel - всего 38,5 Мбайт.

Еще одна проблема с задержками кроется в доступе к кэшу L3 удаленного сокета в многосокетной системе. Здесь у Intel задержка достигает 118 нс (у Cascade Lake: 180 нс), что существенно меньше платформы AMD EPYC с задержкой 209 нс.

Intel лучше позиционируется и по задержкам памяти 85 и 139 нс вместо 96 и 191 нс. Кроме того, частота DDR4-3200 поддерживается для двух DIMM на канале памяти, как мы уже отмечали выше, а в случае процессоров AMD EPYC - только для одного модуля на канал.

Кэш и задержки памяти

Конечно, мы не стали слепо полагаться на результаты Intel и провели свои тесты.

Intel Memory Latency Checker

Задержки кэша

Intel Xeon Platinum 8280 (2S) - L1-Cache

4.6 XX

Intel Xeon Platinum 8180 (2S) - L1-Cache

4.8 XX

Intel Xeon Platinum 8380 (2S) - L1-Cache

5.2 XX

Intel Xeon Platinum 8280 (2S) - L2-Cache

15.3 XX

Intel Xeon Platinum 8180 (2S) - L2-Cache

15.6 XX

Intel Xeon Platinum 8380 (2S) - L2-Cache

16.0 XX

Intel Xeon Platinum 8180 (2S) - L3-Cache

22.0 XX

Intel Xeon Platinum 8280 (2S) - L3-Cache

22.3 XX

Intel Xeon Platinum 8380 (2S) - L3-Cache

23.7 XX

Intel Xeon Platinum 8380 (2S) - L3-Cache (Remote)

123 XX

Intel Xeon Platinum 8180 (2S) - L3-Cache (Remote)

186 XX

Intel Xeon Platinum 8280 (2S) - L3-Cache (Remote)

186 XX

Меньше - лучше

Наши тесты показывают, что задержки все же чуть выше из-за более масштабной mesh-сети. Что верно для всех операций доступа в кэши L1, L2 и L3 новых процессоров Ice Lake SP. Включение SNC2 снижает задержки L1 и L2, поскольку mesh-сеть разбивается на две меньших сети.

Но Intel смогла заметно улучшить задержки доступа в кэш L3 второго сокета, что может дать преимущества в некоторых приложениях.

Ice Lake и Sunny Cove

Тесты серверов

Обзор Skylake-SP и Cascade Lake-SP

Кэш и задержки памяти

Intel Memory Latency Checker

Задержки кэша

Intel Memory Latency Checker

Задержки чтения DRAM

Intel Memory Latency Checker

Задержки чтения DRAM - удаленный сокет

Пропускная способность памяти

Stream

Copy

Stream

Scale

Stream

Triad

Stream

Add

Blender

bmw27

Blender

classroom

Blender

fishy_cat

Blender

koro

Blender

pvaillon_barcelona

Blender

victor

Embree

Crown

Embree

Crown (ISPC)

Embree

Asian Dragon

Embree

Asian Dragon (ISPC)

LAMMPS Molecular Dynamics Simulator

20.000 атомов

LAMMPS Molecular Dynamics Simulator

молекула родопсина

Monte Carlo Simulation

Туманность 2019-03-24

NAMD - Scalable Molecular Dynamics

Симуляция ATPase (327.506 атомов)

Кодирование мультимедиа

AV1

Кодирование мультимедиа

HEVC

Кодирование мультимедиа

VP9

Web-сервер

Apache

Web-сервер

PHP

Производительность баз данных

HammerDB - MariaDB

Производительность баз данных

HammerDB - MariaDB

Производительность баз данных

SQL Lite

Производительность сжатия - 7ZIP

Распаковка

Производительность сжатия - 7ZIP

Сжатие

Y-Cruncher

1T (500M)

Y-Cruncher

nT (25.000M)

Инференс изображений < 7 мс

Open Images Dataset V5 - INT8-Data

Инференс изображений

Open Images Dataset V5 - INT8-Data

Инференс изображений < 7 мс

Open Images Dataset V5 - FP32 через INT8

Инференс изображений

Open Images Dataset V5- FP32 через INT8

OSPRay и Open Image Denoise