Четвертое поколение EPYC Genoa – атака AMD на серверном сегменте

Опубликовано:

hardwareluxx news newПод лозунгом "together we advance data centers" AMD представила четвертое поколение процессоров EPYC под кодовым названием Genoa. Оно выделяется, в первую очередь, использованием ядер Zen 4, поддержкой DDR5, PCI Express 5.0, CXL и другими возможностями ввода/вывода. AMD с четвертым поколением EPYC нацелилась на абсолютное доминирование во всех областях: облако (Cloud), высокопроизводительные вычисления (HPC), корпоративный сегмент (Enterprise) и оптимизированные серверы для разных нагрузках.

Но AMD пока что представила только процессоры на Zen 4 общего назначения, которые являются ключевым бизнесом AMD. Облачные версии под кодовым названием Bergamo с ядрами Zen 4c, Siena для телекоммуникаций и пограничных серверов (Edge) и Genoa-X для специальных технических решений выйдут чуть позже.

AMD вновь подтвердила, что пятое поколение под кодовым названием Torino выйдет в 2024 году. Кроме того, AMD подчеркивает тот факт, что компания последовательно вносит улучшения с каждым поколением и выпускает все вовремя, чем не может похвастаться Intel. И в будущем AMD продолжит следовать своим планам.

AMD ранее уже раскрыла наиболее важные спецификации Genoa EPYC, в том числе 96 ядер Zen 4, распределенных по 12 чиплетам CCD с восемью ядрами каждый. Они подключаются к центральному кристаллу IOD. Последний обеспечивает подключение памяти DDR5 и линий PCI Express 5.0.

AMD перешла на новый сокет SP5 из-за более крупной корпусировки, а также из-за расширенной подсистемы ввода/вывода с DDR5 и PCI Express 5.0. Процессор устанавливается в сокет LGA6096 с 6.096 контактами. Размер корпусировки процессоров EPYC составляет 72 x 75 мм, расстояние между контактами – матрица 0,94 x 0,81 мм. Напомним, что размер сокета SP3 был 58,5 x 75,4 мм.

AMD немного изменила механизм сокета, чтобы оптимизировать контактное давление. Подпружиненная крепежная рамка опускается, после чего фиксируется винтом. Причем непосредственно давление на сокет, то есть между контактными площадками и контактами LGA, прикладывается кулером. Он крепится к ILM шестью винтами, которые вкручиваются с заданным крутящим моментом.

Подписывайтесь на группу Hardwareluxx ВКонтакте и на наш канал в Telegram (@hardwareluxxrussia).

Genoa и архитектура Zen 4

Одно из крупных преимуществ архитектуры чиплетов AMD заключается в том, что CCD процессоров Ryzen (Threadripper) и EPYC идентичны. AMD производит CCD по 5-нм техпроцессу на мощностях TSMC, восемь ядер Zen 4 дополняются 32 Мбайт кэшем L3 – как для процессоров Ryzen, так и EPYC. CCD имеет размер 70 мм², он содержит 6,5 млрд. транзисторов.

Архитектура Zen 4 у процессоров Ryzen и EPYC не отличается. AMD при разработке архитектуры учитывала оба направления. Раньше такой подход был вполне успешным, хотя Intel вносит оптимизации в производительные ядра, поэтому они различаются для Core и Xeon.

AMD указывает прирост IPC для процессоров Ryzen 13%, но для EPYC он увеличился до 14%. Разница появилась по причине того, что здесь берется среднее по нескольким приложений, и их набор для серверного сегмента различается. Задержки почти не увеличились, несмотря на большее число CCD. Причина кроется и в увеличении размера кэшей. Кэш L2 удвоился, но кэш L3 не изменился. Помимо чистой производительности, AMD фокусировалась и на повышении эффективности.

С архитектурой Zen 4 было пересмотрено предсказание ветвлений, которое теперь работает намного лучше. За такт выполняются два предсказания. Кэш микроопераций был увеличен на 68%, в очередь микроопераций он выдает девять micro-ops вместо восьми ранее. По функциональным блокам с целыми числами и плавающей запятой изменений нет, но регистровые файлы увеличились. Блоки с плавающей запятой теперь могут выполнять инструкции AVX-512.

В задней части конвейера улучшились блоки чтения/записи, очередь увеличилась на 22%. Были внесены оптимизации и в D-кэш, чтобы снизить число конфликтов при доступе к данным.

На слайдах показаны численные значения. Отметим более крупный кэш микроопераций, кэш L2, L2 TLB, целочисленный регистровый файл, регистровый файл с плавающей запятой, L2 и L2 BTB (выделен синим).

Но есть некоторые детали, по которым архитектура Zen 4 оказалась хуже Zen 3. Задержки L2 увеличились с 12 до 14 тактов, что не особо огорчает, учитывая в два раза больший кэш. Задержка L3 увеличилась с 46 тактов до 50.

Важным преимуществом архитектуры EPYC и процессоров Zen 4 является поддержка AVX-512. В данном случае AMD преобразует 512-битную операцию в 256-битные. Как указывает AMD, частоты ядер при выполнении инструкций AVX-512 не снижаются, в отличие от процессоров Intel. По числу инструкций реализация AVX-512 от AMD идентична Cooper Lake/Ice Lake от Intel. Конечно, с поколением Sapphire Rapids Intel планирует расширить поддержку AVX-512 новыми инструкциями, но AMD указывает, что уже поддерживает самые важные.

Выполнение инструкций AVX-512 разделено на две 256-битные операции, которые выполняются одна за другой. Архитектура Zen 4 содержит четыре 256-битных исполнительных блока, два для чисел с плавающей запятой, два целочисленных.

Поскольку третье поколение EPYC не поддерживает инструкции AVX-512, то есть выполняет соответствующие вычисления существенно меньшей пропускной способностью, новое поколение здесь выходит вперед. Интересно будет провести сравнение с Intel.

Безопасность и виртуализация очень важны в сегменте дата-центров. Здесь EPYC поддерживает различные функции, знакомые по предыдущим поколениям. На сокет поддерживаются 1.006 зашифрованных гостевых систем. Также поддерживается SMKE (multiple host keys).

Genoa и DDR5

Genoa поддерживает 12 каналов памяти DDR5-4800 и 6 Тбайт на канал памяти, причем на каждый канал можно установить два DIMM. Пропускная способность памяти с 12 каналами составляет 460 Гбайт/с. Помимо обычных модулей RDIMM и 3DS RDIMM с 80-битной шиной (2x 40 бит, 2x 32 данных + 8 ECC), AMD поддерживает модули DDR5 с 72-битной шиной, то есть без ECC.

Предшественники Milan поддерживали лишь восемь каналов памяти DDR4-3200, то есть пропускная способность была ограничена 204,8 Гбайт/с. В случае Genoa теоретическая пропускная способность увеличилась до 460 Гбайт/с, на практике AMD говорит об удвоении пропускной способности. Разница в рангах DDR 1Rank x8 и 2Rank x4 не так велика, можно использовать менее дорогую память 2Rank x4 без серьезного падения производительности.

Что касается доступа к памяти, то новый IOD с DDR5 привел к изменению задержек.

Сравнение задержек

Задержка SoC Задержка модуля Итого
3. поколение EPYC (Milan) ≈ 70 нс ≈ 35 нс ≈ 105 нс
4. поколение EPYC (Genoa) ≈ 73 нс ≈ 45 нс ≈ 118 нс

В случае IOD, то есть контроллера памяти, AMD смогла получить почти идентичные задержки (73 против 70 нс). У модулей DDR5 задержка чуть выше – 10 нс из-за дизайна (частоты, тайминги и т.д.), что обуславливает отличия по суммарной задержке. Но с учетом продолжающегося совершенствования памяти DDR5, AMD ожидает намного меньших задержек в будущем, чем с Genoa на данный момент.

Поддерживаются конфигурации NUMA NPS1, NPS2 и NPS4. Использование NPS2 и NPS4 действительно имеет смысл в некоторых случаях, поскольку ограничивает выполнение приложения только на определенной области CCD и каналах памяти.

Производители материнских плат и серверов могут выбирать между установкой всех 24 слотов DIMM или только 12, чтобы обеспечить один модуль на канал. Чередование памяти позволяет установить только два, четыре, шесть, восемь или десять слотов DIMM, что имеет смысл только в том случае, если приложение не чувствительно к объему и пропускной способности памяти. Но в случае облачных провайдеров, например, такой шаг позволит сэкономить.


Genoa и дизайн SoC

12 CCD и IOD, а также два сокета в конфигурации 2S необходимо как-то соединять. В общей сложности Genoa предлагает 128 линий соединения SerDes 32 Гбит/с для разных стандартов. В конфигурации 1S их можно использовать для 128 линий PCI Express 5.0 (плюс 8x PCI Express 3.0). В системе 2S доступны 160 линий PCI Express. Вместо PCI Express можно вывести 64 линии CXL.

С предыдущими поколениями AMD уже предлагала отличную подсистему ввода/вывода. Genoa продолжает традиции, обеспечивая значительное число линий PCI Express. У процессоров Sapphire Rapids, скорее всего, число линий PCI Express будет ограничено 80, что больше Ice Lake, но все по-прежнему меньше AMD.

Впрочем, здесь производители серверов получают определенную гибкость. Они могут использовать три или четыре канала соединения между процессорами (3Link или 4Link) в системе 2S. С тремя каналами доступны 160 линий PCIe 5.0 и 12 PCIe 3.0. В случае 4Link число линий ограничивается 128 PCIe 5.0 и 12 3.0.

Еще один уровень гибкости добавляется в том, что производителям не нужно выводить четыре канала с одной стороны, их можно реализовать как 2+2 с двух сторон.

Линии PCI Express тоже могут быть в разных конфигурациях: они различаются по блокам с x16, x8, x4, x2 и x1. В общей сложности на блок x16 можно подключить девять устройств (8x x1 + 1x x8).

Существенная доля энергопотребления процессора EPYC связана с подключением CCD к IOD. AMD внесла некоторые улучшения в интерконнект чиплетов GMI3, что привело к небольшому повышению эффективности. AMD говорит о <2 пДж/бит, ранее речь шла о точном значении 2 пДж/бит. Интерфейсы SerDes с пропускной способностью 36 Гбит/с работают с отношением 20:1 от тактовой частоты Infinity Fabric процессора, которая составляет 1,8 ГГц. Если интерфейсы не используются, то GMI3 потребляют примерно на 20% меньше энергии, чем у предшествующего поколения.

Впервые процессоры EPYC стали поддерживать CXL. Здесь тоже используются интерфейсы SerDes, который обеспечивали линии PCI Express. Поддерживается стандарт CXL 1.1(+) с некоторыми функциями CXL 2.0 для Type 3. К сокету можно подключать до 16 устройств CXL. Два других типа CXL не поддерживаются.

Гипервизоры и системы виртуализации на процессоре могут использовать расширение памяти CXL. Память, подключаемая через CXL, базируется на DDR, задержки будут примерно на уровне передачи от сокета к сокету. AMD не видит каких-либо недостатков в подобном внешнем подключении памяти.

Собственные тесты AMD

Конечно, AMD показала свои тесты, в которых проводится сравнение с процессорами Intel Ice Lake и собственными предшественниками. К сожалению, не с процессорами Xeon четвертого поколения на Sapphire Rapids, поскольку они еще не вышли.

Почти во всех категориях AMD не только обгоняет предшественника, но и конкурента. Производительность SpecINT по сравнению с Milan была удвоена, она в три раза выше, чем у Ice Lake с 40 ядрами. По целочисленной производительности на ватт преимущество перед конкурентом 2,6x-кратное.

96 ядер на сокет позволяют во многих случаях использовать только один сокет вместо двух. AMD здесь указывает экономию 25% по энергопотреблению при почти одинаковой производительности. Производительность на ядро/поток на +50% выше Intel. Кроме того, 1S позволяет экономить на лицензиях, что дает максимальную производительность в расчете на лицензию. AMD считает, что клиенты получат на 50% больше производительности на лицензию, также потребуется меньше лицензий для достижения целевой производительности или числа ядер.

Если верить AMD, здесь можно снизить цену покупки, поскольку для целевой вычислительной производительности придется покупать меньше серверов. И цену владения парком серверов. Как указывает AMD, для целевого уровня 8.500 баллов SPECrate 2017_int_base потребуются 15 серверов с двумя Intel Xeon Platinum 8380 каждый. Либо всего пять серверов с двумя EPYC 9654 (96 ядер) каждый. AMD указывает затраты на электроэнергию 103.000 кВт·ч для систем Intel и примерно в два раза меньше 47.000 кВт·ч для новых EPYC.

В двух галереях выше приведены дополнительные слайды и результаты тестов. Наши коллеги ServeTheHome и Phoronix уже представили независимые тесты к моменту выхода процессоров Genoa.

Обзор процессоров

По логике процессоры Genoa должны были выйти в линейке 8000, но прирост производительности просто слишком велик, чем AMD объясняет переход на линейку 9000. Номенклатура расшифровывается следующим образом:

"9" в начале модельного номера указывает на линейку – то есть Genoa. То же самое касается последней цифры, которая всегда "4". Третий знак указывает на число ядер (0=8, 1=16, 2=24, 3=32, 4=48, 5=64, 6=84/96). Второй знак – рейтинг производительности. Чем больше цифра, тем выше ожидаемая производительность. Наконец, добавление буквы “F” в конце указывает на увеличенную частоту, а буква “P” означает односокетные системы.

Сравнение процессоров Genoa

Ядра Базовая частота/Boost Кэш L3 Default TDP cTDP Цена
EPYC 9654/P 96 2,4 / 3,7 ГГц 384 Мбайт 360 Вт 320 - 400 Вт 11.805 USD
EPYC 9634 84 2,25 / 3,7 ГГц 384 Мбайт 290 Вт 240 - 300 Вт 10.304 USD
EPYC 9554/P 64 3,1 / 3,75 ГГц 256 Мбайт 360 Вт 320 - 400 Вт 9.087 USD
EPYC 9534 64 2,45 / 3,7 ГГц 256 Мбайт 280 Вт 240 - 300 Вт 8.803 USD
EPYC 9474/F 48 3,6 / 4,1 ГГц 256 Мбайт 360 Вт 320 - 400 Вт 6.780 USD
EPYC 9454/P 48 2,75 / 3,8 ГГц 256 Мбайт 290 Вт 240 - 300 Вт 5.225 USD
EPYC 9374F 32 3,85 / 4,3 ГГц 256 Мбайт 320 Вт 320 - 400 Вт 4.850 USD
EPYC 9354/P 32 3,25 / 3,8 ГГц 256 Мбайт 280 Вт 240 - 300 Вт 3.420 USD
EPYC 9334 32 2,7 / 3,9 ГГц 128 Мбайт 210 Вт 200 - 240 Вт 2.990 USD
EPYC 9274F 24 4,05 / 4,3 ГГц 256 Мбайт 320 Вт 320 - 400 Вт 3.060 USD
EPYC 9254 24 2,9 / 4,15 ГГц 128 Мбайт 200 Вт 200 - 240 Вт 2.299 USD
EPYC 9224 24 2,5 / 3,7 ГГц 64 Мбайт 200 Вт 200 - 240 Вт 1.825 USD
EPYC 9174F 16 4,1 / 4,4 ГГц 256 Мбайт 320 Вт 320 - 400 Вт 3.850 USD
EPYC 9124 16 3,0 / 3,7 ГГц 64 Мбайт 200 Вт 200 - 240 Вт 1.083 USD

Для самых мощных моделей указан TDP 360 Вт. Но AMD оставляет возможность для клиентов увеличить TDP некоторых моделей до 400 Вт. Ранее порог был 280 Вт. Базовая частота и Boost в некоторых случаях существенно увеличились по сравнению с предшественниками, несмотря на прирост числа ядер CPU до 50%.

Интересно, что базовая частота моделей с 84 или даже 96 ядрами не снизилась по сравнению с процессорами Milan. Здесь 5-нм техпроцесс CCD показывает себя с лучшей стороны. Как мы отмечали ранее, частоты Boost во многих случаях даже увеличились. Процессоры F вообще оптимизированы под высокие тактовые частоты. Например, EPYC 9174F достигает базовой частоты 4,1, а Boost – 4,4 ГГц.

Вместо предыдущего максимума кэша L3 в 256 Мбайт процессоры EPYC на дизайне Genoa обеспечивают до 384 Мбайт на 12 CCD. Объем кэша L3 конкретных моделей зависит от числа активных CCD. Как и раньше, AMD иногда оставляет одно активное ядро на CCD, чтобы выдать максимальную емкость L3 по отношению к числу ядер. Хотя у Genoa немного отличается конфигурация с 12 CCD и 16 или 24 ядрами.

Процессоры EPYC на дизайне Genoa доступны с сегодняшнего дня. Цены AMD тоже привела. Партнеры AMD в серверном сегменте HPE, Lenovo, Atos, Inspur, AWS, Azure и многие другие вскоре представят свои продукты и сервисы на основе четвертого поколения EPYC.

Mercury Research как раз опубликовала новое распределение по рыночной доле CPU. AMD теперь занимает 17,5%, доля увеличилась на 7% по сравнению с предыдущим годом (10,2%), а также немного увеличилась по сравнению с Q2 2022 (13,9%).

Подписывайтесь на группу Hardwareluxx ВКонтакте и на наш канал в Telegram (@hardwareluxxrussia).