GTC17: NVIDIA представила новую архитектуру GPU Volta - Tesla V100 с 5.120 потоковыми процессорами и 16 Гбайт HBM2

Опубликовано:

nvidia-gtc

Дженсен Хуанг, главный исполнительный директор NVIDIA, на пленарном докладе конференции GPU Technology Conference 2017 представил новую архитектуру GPU под названием Volta. Впервые упоминание об архитектуре Volta появилось в марте 2013 года, в ближайшем будущем на ней будут базироваться видеокарты NVIDIA и вычислительные ускорители.

Как и в прошлом году с архитектурой Pascal, NVIDIA представляет Volta сначала для сферы высокопроизводительных вычислений (HPC). Tesla V100 станет первым вычислительным ускорителем на GPU с архитектурой Volta. Технические спецификации впечатляют:

Чип с 21 млрд. транзисторов производится на заводах TSMC по 12-нм техпроцессу, площадь просто гигантская – 812 мм². На GPU GV100 работают 5.120 потоковых процессоров. Компоненты GPU, памяти HBM2 и подложки соединяют более 100 млрд. отдельных линий и интерконнектов.

Вычислительная производительность составляет 7,5 TFLOPS для 64-битных вычислений с плавающей запятой. В 32-битных вычислениях Tesla V100 показывает в два раза большую производительность 15 TFLOPS, в вычислениях INT8 мы получаем 120 TFLOPS.

Чип содержит 20 Мбайт кэша файла регистров и 16 Мбайт кэша L3. Мы уже упоминали память HBM2 общей емкостью 16 Гбайт, частота памяти составляет 900 МГц. NVIDIA выбрала чипы HBM2 от Samsung, по сравнению с Tesla P100 мы получаем заметное ускорение. Пропускная способность памяти теперь составляет 900 Гбайт/с. Но по сравнению с Tesla P100 емкость памяти не возросла, возможно, из-за плохой доступности памяти HBM2, особенно с более чем четырьмя стеками.

Дополнительные подробности архитектуры пока недоступны. Но NVIDIA внесла многочисленные улучшения, большинство которых нацелены на сферу глубокого обучения. NVIDIA теперь говорит не прост о ядрах CUDA или потоковых процессорах, а о тензорных ядрах. В GPU GV100 используются 640 тензорных ядер. Вычислительный блок состоит из 4x4 ядер, что позволяет быстрее справляться со специализированными вычислениями.

NVIDIA на пленарном докладе подчеркнула, что хотя архитектура Volta впервые используется в вычислительных ускорителях Tesla V100, компания не забыла и о 3D-приложениях. На сцене был показан рендеринг Square Enix в реальном времени.

Позднее Volta выйдет и для видеокарт GeForce, поставки же ускорителей GPU Tesla V100 начнутся в третьем квартале. Пока не совсем понятно, когда именно архитектура Volta появится на настольных системах и в каком виде. Все же доступность HBM2 остается главной проблемой, и для розничного рынка NVIDIA может от нее отказаться. Впрочем, SK Hynix как раз готовит память GDDR6, которая обещает стать самой быстрой памятью DDR на рынке. Она будет доступна с начала 2018 года – возможно как раз вместе с GPU на архитектуре Volta.

Обзор технических спецификаций Tesla V100
Модель NVIDIA Tesla P100 NVIDIA Tesla V100
Техническая информация
GPU GP100 GV100
Техпроцесс 16 нм 12 нм
Число транзисторов 15,3 млрд. 21 млрд.
Тактовая частота GPU (базовая) 1.328 МГц -
Тактовая частота GPU (Boost) 1.480 МГц -
Частота памяти 737 МГц 878 МГц
Тип памяти HBM2 HBM2
Объём памяти 16 GB 16 GB
Ширина шины памяти 4.096 бит 4.096 бит
Пропускная способность памяти 720 Гбайт/с 900 Гбайт/с
Потоковые процессоры 3.584 5.120
Типичное энергопотребление 300 Вт -

NVLink 2.0

Скоростной интерконнект является важной частью любой платформы HPC. Все основные производители пытаются соединять чипы как можно более скоростными магистралями, то же самое касается соединения с внешними компонентами. Технологию интерконнекта NVLink NVIDIA представила еще на GPU Technology Conference в 2014 году.

NVLink опирается на технологию High-Speed Signaling Interconnect (NVHS), разработанную NVIDIA. NVHS первого поколения обеспечивает пропускную способность по линии до 20 Гбит/с, что стало возможным благодаря дифференциальному кодированию. Восемь таких линий формируют sub-link. Два sub-link формируют связь (link), подобные связи как раз используются между двумя GPU (GPU-to-GPU или GPU-to-CPU). Связь дает пропускную способность 40 Гбайт/с в двух направлениях, реальная пропускная способность соответствует 97% от теоретической. То есть избыточность передачи информации очень невелика.

NVLink 2.0 увеличивает частоту сигнала, что приводит к увеличению пропускной способности. Впервые информация о NVLink 2.0 появилась в анонсе процессоров IBM Power9 в августе 2016. Примерно тогда же она стала ассоциироваться с Volta. С Volta NVIDIA планирует ускорить NVLink до 300 Гбайт/с при соединении двух конечных точек с полным числом каналов NVLink. С технологией NVLink первого поколения пропускная способность ограничивалась 160 Гбайт/с.

По мере того, как NVIDIA будет объявлять новые подробности на GPU Technology Conference, мы планируем публиковать дополнительные новости.

Сравнение вычислительной производительности

Для лучшего сравнения вычислительной производительности мы представили таблицу, где также приведены долгожданные ускорители Radeon Instinct.

Сравнение вычислительной производительности GPU-ускорителей
Модель NVIDIA Tesla P100 NVIDIA Tesla V100 AMD Radeon Instinct MI25
GPU GP100 GV100 Vega
FP64 5,3 TFLOPS 7,5 TFLOPS -
FP32 10,6 TFLOPS 15 TFLOPS 12,5 TFLOPs
FP16 21,2 TFLOPS 30 TFLOPs -
IN8 - 120 TFLOPs -
Соотношение FP64/FP32 1/2 1/2 -
Тип памяти HBM2 HBM2 HBM2
Объем памяти 16 GB 16 GB 16 GB
Интерфейс памяти 4.096 бит 4.096 бит -
Пропускная способность памяти 720 Гбайт/с 900 Гбайт/с -
Потоковые процессоры 3.840 5.120 4.096