На мероприятии в Сан-Франциско AMD рассказала о своем видении будущего в сегменте дата-центров, выбрав лозунг "Новый горизонт". Помимо презентаций EPYC и Radeon Instinct, AMD поделилась с участниками рядом инноваций.
Интересно, что GPU Vega 7 нм сначала будет представлен не в виде Radeon Instinct MI25 с 64 блоками CU, а как ускоритель Radeon Instinct MI60. Именно он получит первый 7-нм GPU и станет самым быстрым ускорителем с интерфейсом PCI Express. Карта будет обеспечивать вычислительную производительность 60 TFLOPs для вычислений FP16 - об этом можно догадаться по названию. В случае Radeon Instinct MI25 пиковая производительность вычислений FP16 составила 25 TFLOPs.
Ускорители Radeon Instinct MI60 опираются на GPU Vega 20 и содержат 13,28 млрд. транзисторов на площади кристалла 331 мм². Напомним, что Vega 10 GPU содержит 12,5 млрд. транзисторов на площади 484 мм². Теперь официально поддерживается PCI Express 4.0, что весьма важно для сегмента дата-центров.
Помимо GPU Vega 20, ускорители Radeon Instinct MI60 опираются на четыре стека памяти HBM2, что позволяет устанавливать до 32 Гбайт. Ширина шины памяти составляет 4.096 бита, пропускная способность - 1 Тбайт/с. Чипы памяти работают на 1.000 МГц.
В отличие от Vega 10 GPU, Vega 20 будет содержать блоки FP64, при этом чип будет поддерживать вычисления INT8 и INT4. Не обошлось без поддержки шифрования end-to-end с ECC.
Вероятно, мы также получим ускоритель Radeon Instinct MI50 с вычислительной производительностью 50 TFLOPs FP16. Скорее всего, он станет самой младшей версией на GPU Vega 20. Вычисления INT8 и INT4 тоже поддерживаются.
Сравнение вычислительной производительности:
Модель | GeForce RTX 2080 Ti | Quadro RTX 8000 | Tesla V100 | Radeon Instinct MI60 | Radeon Instinct MI50 |
Технические спецификации | |||||
---|---|---|---|---|---|
GPU | TU102 | TU102 | GV100 | Vega 20 | Vega 20 |
Архитектура | Turing | Turing | Volta | Vega | Vega |
Техпроцесс | 12 нм | 12 нм | 12 нм | 7 нм | 7 нм |
Потоковые процессоры | 4.332 | 4.608 | 5.120 | 4.096 | 3.840 |
Частота GPU | 1.635 МГц | 1.770 МГц | 1.380 МГц | 1.800 МГц | 1.746 МГц |
Интерфейс памяти | 352 бит | 384 бит | 4.096 бит | 4.096 бит | 4.096 бит |
Тип памяти | 11 GB GDDR6 | 48 GB GDDR6 | 32 GB HBM2 | 32 GB HBM2 | 16 GB HBM2 |
Частота памяти | 1.750 МГц | 1.750 МГц | 900 МГц | 1.000 МГц | 1.000 МГц |
Пропускная способность | 616 Гбайт/с | 672 Гбайт/с | 900 Гбайт/с | 1 Тбайт/с | 1 Тбайт/с |
Интерконнект | NVLink 100 Гбайт/с |
NVLink 100 Гбайт/с |
NVLink 300 Гбайт/с |
Infinity Fabric 200 Гбайт/с |
Infinity Fabric 200 Гбайт/с |
TDP | 260 Вт | 295 Вт | 300 Вт | 300 Вт | 300 Вт |
Вычислительная производительность | |||||
FP32 TFLOPS | 14,2 | 16,3 | 15,7 | 14,7 | 13,4 |
INT32 TIPS | 14,2 | 16,3 | 15,7 |
- | - |
FP64 TFLOPS | 0,445 | 0,510 | 7,8 | 7,4 | 6,7 |
FP16 TFLOPS | 28,5 | 32,6 | 31,4 | 29,5 | 26,8 |
INT8 Tensor TOPS | 227,7 | 261 | 60 | 58,9 | 53,6 |
INT4 Tensor TOPS | 455,4 | 522 | 120 | - | - |
Rome на основе Zen 2
Впрочем, в фокусе все равно остается архитектура Zen второго поколения, а именно Zen 2. AMD указывает использование Zen 2 в контексте "высокопроизводительных" ядер, которые производятся по 7-нм техпроцессу. Кроме 7-нм техпроцесса упоминается и модульный дизайн, но информация будет предоставлена позже. Был объявлен и первый процессор на архитектуре Zen 2 с кодовым названием Rome - он выйдет в следующем году в виде EPYC 2.
AMD отлаживала 7-нм техпроцесс совместно с TSMC. До сих пор производством процессоров AMD занималась только компания GlobalFoundries. Но, похоже, времена меняются. Производство по 7-нм технологии позволит увеличить плотность расположения транзисторов в два раза, при прежней производительности энергопотребление можно будет уменьшить в два раза, либо увеличить производительность на 25% при прежнем энергопотреблении.
Rome будет опираться на кристалл I/O, который будет производиться по 14-нм техпроцессу. Кристалл I/O Die будет отвечать за все задачи ввода/вывода. Здесь можно как раз упомянуть и интерконнект Infinity Fabric второго поколения. Компоненты CPU будут подключаться к кристаллу I/O. На презентации AMD показала конструкцию с центральным кристаллом I/O и двумя кристаллами CPU. Однако структура кристаллов CPU пока не раскрыта. AMD говорит об увеличенной плотности расположения ядер. Так что вполне возможно, мы получим в два раза больше ядер на CCX.
AMD расширила архитектуру Zen 2, чтобы увеличить вычислительную производительность и лучше соответствовать потребностям дата-центров. Среди всего прочего, теперь доступны четыре 256-битных блока FPU (Floating Point Unit). Изменения коснулись структуры кэшей, также и весь конвейер был оптимизирован. AMD говорит о потреблении в два раза меньшей мощности на вычислительную операцию с процессорами Zen 2.
Процессоры EPYC второго поколения будут поддерживать PCI Express 4.0, то же самое касается ускорителей Radeon Instinct MI60 и Radeon Instinct MI50, так что мы получим двунаправленную передачу данных со скоростью до 64 Гбайт/с между CPU и GPU. Интерконнект Infinity Fabric обеспечивает 100 Гбайт/с на канал для соединения GPU-GPU. В кольцевую топологию можно объединять до четырех ускорителей Radeon Instinct.
Внизу слайда упоминаются 64 ядра. Как и 8-канальный интерфейс памяти. Между тем, данные значения были подтверждены во время презентации.
Важнее то, что были подтверждены слухи о дизайне 8+1. Вместо одного монолитного чипа, который с переходом на 7-нм техпроцесс станет меньше, AMD планирует использовать несколько отдельных кристаллов, которые будут комбинироваться в упаковке MCM. На мероприятии AMD показала чип с центральным кристаллом I/O, который производится по 14-нм техпроцессу. К нему подключаются восемь дополнительных кристаллов - модулей CCX с восемью ядрами каждый.
Если посчитать, 8+1 ядер будут занимать площадь чипа 1.000 мм² - об этом сообщила AMD на мероприятии. С учетом предоставленных слайдов, площадь CCX составляет порядка 72 мм², для кристалла I/O мы получаем около 430 мм².
Как показали тесты процессоров Ryzen Threadripper (AMD Ryzen Threadripper 2990WX и 2950X, также AMD Ryzen Threadripper 2920X и 2970WX), приоритетным в структуре MCM становится эффективное управление кэшами и контроллерами памяти, чтобы минимизировать задержки. Здесь как раз кроется самый существенный недостаток дизайна MCM. Как раз дополнительный контроллер должен оптимизировать задержки.
Все кристаллы CCX будут подключаться к контроллеру. Структура кристаллов останется прежним, то есть каждый содержит восемь ядер и 32 Мбайт кэша L3, так что процессор EPYC 2 в полной конфигурации будет оснащаться 64 ядрами, которые будут выполнять 128 потоков. Также кэш L3 достигнет впечатляющей емкости 256 Мбайт.
Конечно, не обойдется без восьми контроллеров памяти DDR4, к которым можно подключать до 2 Тбайт ОЗУ по восьми каналам, с числом слотов DIMM до 16. Причем контроллеры памяти теперь будут располагаться на кристалле-контроллере, а не на кристаллах CCX. То же самое касается 128 линий PCI Express, в случае Zen 2 они наверняка перейдут на стандарт PCI Express 4.0.
Сведений о тактовых частотах пока нет. На мероприятии AMD сравнила процессор EPYC с 64 ядрами с двумя процессорами Intel Xeon Platinum 8180M по 28 ядер каждый. Используемый тест C-Ray весьма неплохо работает на процессорах EPYC, и результат 28-30 секунд в пользу AMD не удивляет. Процессор EPYC с 64 ядрами охлаждался воздушным кулером. Но его тактовые частоты были не финальными.
Процессоры EPYC второго поколения выйдут на рынок в 2019 году. Ближе к тому времени мы должны получить подробности о тактовых частотах и конкретных моделях.