Новый горизонт: AMD показала 7-нм Vega и EPYC 2-го поколения

amd-newhorizon На мероприятии в Сан-Франциско AMD рассказала о своем видении будущего в сегменте дата-центров, выбрав лозунг "Новый горизонт". Помимо презентаций EPYC и Radeon Instinct, AMD поделилась с участниками рядом инноваций.

Интересно, что GPU Vega 7 нм сначала будет представлен не в виде Radeon Instinct MI25 с 64 блоками CU, а как ускоритель Radeon Instinct MI60. Именно он получит первый 7-нм GPU и станет самым быстрым ускорителем с интерфейсом PCI Express. Карта будет обеспечивать вычислительную производительность 60 TFLOPs для вычислений FP16 - об этом можно догадаться по названию. В случае Radeon Instinct MI25 пиковая производительность вычислений FP16 составила 25 TFLOPs.

Ускорители Radeon Instinct MI60 опираются на GPU Vega 20 и содержат 13,28 млрд. транзисторов на площади кристалла 331 мм². Напомним, что Vega 10 GPU содержит 12,5 млрд. транзисторов на площади 484 мм². Теперь официально поддерживается PCI Express 4.0, что весьма важно для сегмента дата-центров.

Помимо GPU Vega 20, ускорители Radeon Instinct MI60 опираются на четыре стека памяти HBM2, что позволяет устанавливать до 32 Гбайт. Ширина шины памяти составляет 4.096 бита, пропускная способность - 1 Тбайт/с. Чипы памяти работают на 1.000 МГц.

В отличие от Vega 10 GPU, Vega 20 будет содержать блоки FP64, при этом чип будет поддерживать вычисления INT8 и INT4. Не обошлось без поддержки шифрования end-to-end с ECC.

Вероятно, мы также получим ускоритель Radeon Instinct MI50 с вычислительной производительностью 50 TFLOPs FP16. Скорее всего, он станет самой младшей версией на GPU Vega 20. Вычисления INT8 и INT4 тоже поддерживаются.

Сравнение вычислительной производительности:

Вычислительная производительность архитектур Volta, Turing и Vega
Технические спецификации
Модель	GeForce RTX 2080 Ti	Quadro RTX 8000	Tesla V100	Radeon Instinct MI60	Radeon Instinct MI50
GPU	TU102	TU102	GV100	Vega 20	Vega 20
Архитектура	Turing	Turing	Volta	Vega	Vega
Техпроцесс	12 нм	12 нм	12 нм	7 нм	7 нм
Потоковые процессоры	4.332	4.608	5.120	4.096	3.840
Частота GPU	1.635 МГц	1.770 МГц	1.380 МГц	1.800 МГц	1.746 МГц
Интерфейс памяти	352 бит	384 бит	4.096 бит	4.096 бит	4.096 бит
Тип памяти	11 GB GDDR6	48 GB GDDR6	32 GB HBM2	32 GB HBM2	16 GB HBM2
Частота памяти	1.750 МГц	1.750 МГц	900 МГц	1.000 МГц	1.000 МГц
Пропускная способность	616 Гбайт/с	672 Гбайт/с	900 Гбайт/с	1 Тбайт/с	1 Тбайт/с
Интерконнект	NVLink 100 Гбайт/с	NVLink 100 Гбайт/с	NVLink 300 Гбайт/с	Infinity Fabric 200 Гбайт/с	Infinity Fabric 200 Гбайт/с
TDP	260 Вт	295 Вт	300 Вт	300 Вт	300 Вт
Вычислительная производительность
FP32 TFLOPS	14,2	16,3	15,7	14,7	13,4
INT32 TIPS	14,2	16,3	15,7	-	-
FP64 TFLOPS	0,445	0,510	7,8	7,4	6,7
FP16 TFLOPS	28,5	32,6	31,4	29,5	26,8
INT8 Tensor TOPS	227,7	261	60	58,9	53,6
INT4 Tensor TOPS	455,4	522	120	-	-

Rome на основе Zen 2

Впрочем, в фокусе все равно остается архитектура Zen второго поколения, а именно Zen 2. AMD указывает использование Zen 2 в контексте "высокопроизводительных" ядер, которые производятся по 7-нм техпроцессу. Кроме 7-нм техпроцесса упоминается и модульный дизайн, но информация будет предоставлена позже. Был объявлен и первый процессор на архитектуре Zen 2 с кодовым названием Rome - он выйдет в следующем году в виде EPYC 2.

AMD отлаживала 7-нм техпроцесс совместно с TSMC. До сих пор производством процессоров AMD занималась только компания GlobalFoundries. Но, похоже, времена меняются. Производство по 7-нм технологии позволит увеличить плотность расположения транзисторов в два раза, при прежней производительности энергопотребление можно будет уменьшить в два раза, либо увеличить производительность на 25% при прежнем энергопотреблении.

Rome будет опираться на кристалл I/O, который будет производиться по 14-нм техпроцессу. Кристалл I/O Die будет отвечать за все задачи ввода/вывода. Здесь можно как раз упомянуть и интерконнект Infinity Fabric второго поколения. Компоненты CPU будут подключаться к кристаллу I/O. На презентации AMD показала конструкцию с центральным кристаллом I/O и двумя кристаллами CPU. Однако структура кристаллов CPU пока не раскрыта. AMD говорит об увеличенной плотности расположения ядер. Так что вполне возможно, мы получим в два раза больше ядер на CCX.

AMD расширила архитектуру Zen 2, чтобы увеличить вычислительную производительность и лучше соответствовать потребностям дата-центров. Среди всего прочего, теперь доступны четыре 256-битных блока FPU (Floating Point Unit). Изменения коснулись структуры кэшей, также и весь конвейер был оптимизирован. AMD говорит о потреблении в два раза меньшей мощности на вычислительную операцию с процессорами Zen 2.

Процессоры EPYC второго поколения будут поддерживать PCI Express 4.0, то же самое касается ускорителей Radeon Instinct MI60 и Radeon Instinct MI50, так что мы получим двунаправленную передачу данных со скоростью до 64 Гбайт/с между CPU и GPU. Интерконнект Infinity Fabric обеспечивает 100 Гбайт/с на канал для соединения GPU-GPU. В кольцевую топологию можно объединять до четырех ускорителей Radeon Instinct.

Внизу слайда упоминаются 64 ядра. Как и 8-канальный интерфейс памяти. Между тем, данные значения были подтверждены во время презентации.

Важнее то, что были подтверждены слухи о дизайне 8+1. Вместо одного монолитного чипа, который с переходом на 7-нм техпроцесс станет меньше, AMD планирует использовать несколько отдельных кристаллов, которые будут комбинироваться в упаковке MCM. На мероприятии AMD показала чип с центральным кристаллом I/O, который производится по 14-нм техпроцессу. К нему подключаются восемь дополнительных кристаллов - модулей CCX с восемью ядрами каждый.

Если посчитать, 8+1 ядер будут занимать площадь чипа 1.000 мм² - об этом сообщила AMD на мероприятии. С учетом предоставленных слайдов, площадь CCX составляет порядка 72 мм², для кристалла I/O мы получаем около 430 мм².

Как показали тесты процессоров Ryzen Threadripper (AMD Ryzen Threadripper 2990WX и 2950X, также AMD Ryzen Threadripper 2920X и 2970WX), приоритетным в структуре MCM становится эффективное управление кэшами и контроллерами памяти, чтобы минимизировать задержки. Здесь как раз кроется самый существенный недостаток дизайна MCM. Как раз дополнительный контроллер должен оптимизировать задержки.

Все кристаллы CCX будут подключаться к контроллеру. Структура кристаллов останется прежним, то есть каждый содержит восемь ядер и 32 Мбайт кэша L3, так что процессор EPYC 2 в полной конфигурации будет оснащаться 64 ядрами, которые будут выполнять 128 потоков. Также кэш L3 достигнет впечатляющей емкости 256 Мбайт.

Конечно, не обойдется без восьми контроллеров памяти DDR4, к которым можно подключать до 2 Тбайт ОЗУ по восьми каналам, с числом слотов DIMM до 16. Причем контроллеры памяти теперь будут располагаться на кристалле-контроллере, а не на кристаллах CCX. То же самое касается 128 линий PCI Express, в случае Zen 2 они наверняка перейдут на стандарт PCI Express 4.0.

Сведений о тактовых частотах пока нет. На мероприятии AMD сравнила процессор EPYC с 64 ядрами с двумя процессорами Intel Xeon Platinum 8180M по 28 ядер каждый. Используемый тест C-Ray весьма неплохо работает на процессорах EPYC, и результат 28-30 секунд в пользу AMD не удивляет. Процессор EPYC с 64 ядрами охлаждался воздушным кулером. Но его тактовые частоты были не финальными.

Процессоры EPYC второго поколения выйдут на рынок в 2019 году. Ближе к тому времени мы должны получить подробности о тактовых частотах и конкретных моделях.