> > > > Новый горизонт: AMD показала 7-нм Vega и EPYC 2-го поколения

Новый горизонт: AMD показала 7-нм Vega и EPYC 2-го поколения

Опубликовано:

amd-newhorizonНа мероприятии в Сан-Франциско AMD рассказала о своем видении будущего в сегменте дата-центров, выбрав лозунг "Новый горизонт". Помимо презентаций EPYC и Radeon Instinct, AMD поделилась с участниками рядом инноваций.

Интересно, что GPU Vega 7 нм сначала будет представлен не в виде Radeon Instinct MI25 с 64 блоками CU, а как ускоритель Radeon Instinct MI60. Именно он получит первый 7-нм GPU и станет самым быстрым ускорителем с интерфейсом PCI Express. Карта будет обеспечивать вычислительную производительность 60 TFLOPs для вычислений FP16 - об этом можно догадаться по названию. В случае Radeon Instinct MI25 пиковая производительность вычислений FP16 составила 25 TFLOPs.

Ускорители Radeon Instinct MI60 опираются на GPU Vega 20 и содержат 13,28 млрд. транзисторов на площади кристалла 331 мм². Напомним, что Vega 10 GPU содержит 12,5 млрд. транзисторов на площади 484 мм². Теперь официально поддерживается PCI Express 4.0, что весьма важно для сегмента дата-центров.

Помимо GPU Vega 20, ускорители Radeon Instinct MI60 опираются на четыре стека памяти HBM2, что позволяет устанавливать до 32 Гбайт. Ширина шины памяти составляет 4.096 бита, пропускная способность - 1 Тбайт/с. Чипы памяти работают на 1.000 МГц.

В отличие от Vega 10 GPU, Vega 20 будет содержать блоки FP64, при этом чип будет поддерживать вычисления INT8 и INT4. Не обошлось без поддержки шифрования end-to-end с ECC.

Вероятно, мы также получим ускоритель Radeon Instinct MI50 с вычислительной производительностью 50 TFLOPs FP16. Скорее всего, он станет самой младшей версией на GPU Vega 20. Вычисления INT8 и INT4 тоже поддерживаются.

Сравнение вычислительной производительности:

Вычислительная производительность архитектур Volta, Turing и Vega
Модель GeForce RTX 2080 Ti Quadro RTX 8000 Tesla V100 Radeon Instinct MI60 Radeon Instinct MI50
Технические спецификации
GPU TU102 TU102 GV100 Vega 20 Vega 20
Архитектура Turing Turing Volta Vega Vega
Техпроцесс 12 нм 12 нм 12 нм 7 нм 7 нм
Потоковые процессоры 4.332 4.608 5.120 4.096 3.840
Частота GPU 1.635 МГц 1.770 МГц 1.380 МГц 1.800 МГц 1.746 МГц
Интерфейс памяти 352 бит 384 бит 4.096 бит 4.096 бит 4.096 бит
Тип памяти 11 GB GDDR6 48 GB GDDR6 32 GB HBM2 32 GB HBM2 16 GB HBM2
Частота памяти 1.750 МГц 1.750 МГц 900 МГц 1.000 МГц 1.000 МГц
Пропускная способность 616 Гбайт/с 672 Гбайт/с 900 Гбайт/с 1 Тбайт/с 1 Тбайт/с
Интерконнект NVLink
100 Гбайт/с
NVLink
100 Гбайт/с
NVLink
300 Гбайт/с
Infinity Fabric
200 Гбайт/с
Infinity Fabric
200 Гбайт/с
TDP 260 Вт 295 Вт 300 Вт 300 Вт 300 Вт
Вычислительная производительность
FP32 TFLOPS  14,2 16,3 15,7 14,7 13,4
INT32 TIPS  14,2 16,3 15,7
- -
FP64 TFLOPS 0,445 0,510 7,8 7,4 6,7
FP16 TFLOPS  28,5 32,6 31,429,5 26,8
INT8 Tensor TOPS  227,7 261 60 58,9 53,6
INT4 Tensor TOPS  455,4 522 120 - -

Rome на основе Zen 2

Впрочем, в фокусе все равно остается архитектура Zen второго поколения, а именно Zen 2. AMD указывает использование Zen 2 в контексте "высокопроизводительных" ядер, которые производятся по 7-нм техпроцессу. Кроме 7-нм техпроцесса упоминается и модульный дизайн, но информация будет предоставлена позже. Был объявлен и первый процессор на архитектуре Zen 2 с кодовым названием Rome - он выйдет в следующем году в виде EPYC 2.

AMD отлаживала 7-нм техпроцесс совместно с TSMC. До сих пор производством процессоров AMD занималась только компания GlobalFoundries. Но, похоже, времена меняются. Производство по 7-нм технологии позволит увеличить плотность расположения транзисторов в два раза, при прежней производительности энергопотребление можно будет уменьшить в два раза, либо увеличить производительность на 25% при прежнем энергопотреблении.

Rome будет опираться на кристалл I/O, который будет производиться по 14-нм техпроцессу. Кристалл I/O Die будет отвечать за все задачи ввода/вывода. Здесь можно как раз упомянуть и интерконнект Infinity Fabric второго поколения. Компоненты CPU будут подключаться к кристаллу I/O. На презентации AMD показала конструкцию с центральным кристаллом I/O и двумя кристаллами CPU. Однако структура кристаллов CPU пока не раскрыта. AMD говорит об увеличенной плотности расположения ядер. Так что вполне возможно, мы получим в два раза больше ядер на CCX.

AMD расширила архитектуру Zen 2, чтобы увеличить вычислительную производительность и лучше соответствовать потребностям дата-центров. Среди всего прочего, теперь доступны четыре 256-битных блока FPU (Floating Point Unit). Изменения коснулись структуры кэшей, также и весь конвейер был оптимизирован. AMD говорит о потреблении в два раза меньшей мощности на вычислительную операцию с процессорами Zen 2.

Процессоры EPYC второго поколения будут поддерживать PCI Express 4.0, то же самое касается ускорителей Radeon Instinct MI60 и Radeon Instinct MI50, так что мы получим двунаправленную передачу данных со скоростью до 64 Гбайт/с между CPU и GPU. Интерконнект Infinity Fabric обеспечивает 100 Гбайт/с на канал для соединения GPU-GPU. В кольцевую топологию можно объединять до четырех ускорителей Radeon Instinct.

Внизу слайда упоминаются 64 ядра. Как и 8-канальный интерфейс памяти. Между тем, данные значения были подтверждены во время презентации.

Важнее то, что были подтверждены слухи о дизайне 8+1. Вместо одного монолитного чипа, который с переходом на 7-нм техпроцесс станет меньше, AMD планирует использовать несколько отдельных кристаллов, которые будут комбинироваться в упаковке MCM. На мероприятии AMD показала чип с центральным кристаллом I/O, который производится по 14-нм техпроцессу. К нему подключаются восемь дополнительных кристаллов - модулей CCX с восемью ядрами каждый.

Если посчитать, 8+1 ядер будут занимать площадь чипа 1.000 мм² - об этом сообщила AMD на мероприятии. С учетом предоставленных слайдов, площадь CCX составляет порядка 72 мм², для кристалла I/O мы получаем около 430 мм².

Как показали тесты процессоров Ryzen Threadripper (AMD Ryzen Threadripper 2990WX и 2950X, также AMD Ryzen Threadripper 2920X и 2970WX), приоритетным в структуре MCM становится эффективное управление кэшами и контроллерами памяти, чтобы минимизировать задержки. Здесь как раз кроется самый существенный недостаток дизайна MCM. Как раз дополнительный контроллер должен оптимизировать задержки.

Все кристаллы CCX будут подключаться к контроллеру. Структура кристаллов останется прежним, то есть каждый содержит восемь ядер и 32 Мбайт кэша L3, так что процессор EPYC 2 в полной конфигурации будет оснащаться 64 ядрами, которые будут выполнять 128 потоков. Также кэш L3 достигнет впечатляющей емкости 256 Мбайт.

Конечно, не обойдется без восьми контроллеров памяти DDR4, к которым можно подключать до 2 Тбайт ОЗУ по восьми каналам, с числом слотов DIMM до 16. Причем контроллеры памяти теперь будут располагаться на кристалле-контроллере, а не на кристаллах CCX. То же самое касается 128 линий PCI Express, в случае Zen 2 они наверняка перейдут на стандарт PCI Express 4.0.

Сведений о тактовых частотах пока нет. На мероприятии AMD сравнила процессор EPYC с 64 ядрами с двумя процессорами Intel Xeon Platinum 8180M по 28 ядер каждый. Используемый тест C-Ray весьма неплохо работает на процессорах EPYC, и результат 28-30 секунд в пользу AMD не удивляет. Процессор EPYC с 64 ядрами охлаждался воздушным кулером. Но его тактовые частоты были не финальными.

Процессоры EPYC второго поколения выйдут на рынок в 2019 году. Ближе к тому времени мы должны получить подробности о тактовых частотах и конкретных моделях.