GTC17: NVIDIA представила новую архитектуру GPU Volta - Tesla V100 с 5.120 потоковыми процессорами и 16 Гбайт HBM2

nvidia-gtc

Дженсен Хуанг, главный исполнительный директор NVIDIA, на пленарном докладе конференции GPU Technology Conference 2017 представил новую архитектуру GPU под названием Volta. Впервые упоминание об архитектуре Volta появилось в марте 2013 года, в ближайшем будущем на ней будут базироваться видеокарты NVIDIA и вычислительные ускорители.

Как и в прошлом году с архитектурой Pascal, NVIDIA представляет Volta сначала для сферы высокопроизводительных вычислений (HPC). Tesla V100 станет первым вычислительным ускорителем на GPU с архитектурой Volta. Технические спецификации впечатляют:

Чип с 21 млрд. транзисторов производится на заводах TSMC по 12-нм техпроцессу, площадь просто гигантская – 812 мм². На GPU GV100 работают 5.120 потоковых процессоров. Компоненты GPU, памяти HBM2 и подложки соединяют более 100 млрд. отдельных линий и интерконнектов.

Вычислительная производительность составляет 7,5 TFLOPS для 64-битных вычислений с плавающей запятой. В 32-битных вычислениях Tesla V100 показывает в два раза большую производительность 15 TFLOPS, в вычислениях INT8 мы получаем 120 TFLOPS.

Чип содержит 20 Мбайт кэша файла регистров и 16 Мбайт кэша L3. Мы уже упоминали память HBM2 общей емкостью 16 Гбайт, частота памяти составляет 900 МГц. NVIDIA выбрала чипы HBM2 от Samsung, по сравнению с Tesla P100 мы получаем заметное ускорение. Пропускная способность памяти теперь составляет 900 Гбайт/с. Но по сравнению с Tesla P100 емкость памяти не возросла, возможно, из-за плохой доступности памяти HBM2, особенно с более чем четырьмя стеками.

Дополнительные подробности архитектуры пока недоступны. Но NVIDIA внесла многочисленные улучшения, большинство которых нацелены на сферу глубокого обучения. NVIDIA теперь говорит не прост о ядрах CUDA или потоковых процессорах, а о тензорных ядрах. В GPU GV100 используются 640 тензорных ядер. Вычислительный блок состоит из 4x4 ядер, что позволяет быстрее справляться со специализированными вычислениями.

NVIDIA на пленарном докладе подчеркнула, что хотя архитектура Volta впервые используется в вычислительных ускорителях Tesla V100, компания не забыла и о 3D-приложениях. На сцене был показан рендеринг Square Enix в реальном времени.

Позднее Volta выйдет и для видеокарт GeForce, поставки же ускорителей GPU Tesla V100 начнутся в третьем квартале. Пока не совсем понятно, когда именно архитектура Volta появится на настольных системах и в каком виде. Все же доступность HBM2 остается главной проблемой, и для розничного рынка NVIDIA может от нее отказаться. Впрочем, SK Hynix как раз готовит память GDDR6, которая обещает стать самой быстрой памятью DDR на рынке. Она будет доступна с начала 2018 года – возможно как раз вместе с GPU на архитектуре Volta.

Обзор технических спецификаций Tesla V100
Модель	NVIDIA Tesla P100	NVIDIA Tesla V100
Техническая информация
GPU	GP100	GV100
Техпроцесс	16 нм	12 нм
Число транзисторов	15,3 млрд.	21 млрд.
Тактовая частота GPU (базовая)	1.328 МГц	-
Тактовая частота GPU (Boost)	1.480 МГц	-
Частота памяти	737 МГц	878 МГц
Тип памяти	HBM2	HBM2
Объём памяти	16 GB	16 GB
Ширина шины памяти	4.096 бит	4.096 бит
Пропускная способность памяти	720 Гбайт/с	900 Гбайт/с
Потоковые процессоры	3.584	5.120
Типичное энергопотребление	300 Вт	-

NVLink 2.0

Скоростной интерконнект является важной частью любой платформы HPC. Все основные производители пытаются соединять чипы как можно более скоростными магистралями, то же самое касается соединения с внешними компонентами. Технологию интерконнекта NVLink NVIDIA представила еще на GPU Technology Conference в 2014 году.

NVLink опирается на технологию High-Speed Signaling Interconnect (NVHS), разработанную NVIDIA. NVHS первого поколения обеспечивает пропускную способность по линии до 20 Гбит/с, что стало возможным благодаря дифференциальному кодированию. Восемь таких линий формируют sub-link. Два sub-link формируют связь (link), подобные связи как раз используются между двумя GPU (GPU-to-GPU или GPU-to-CPU). Связь дает пропускную способность 40 Гбайт/с в двух направлениях, реальная пропускная способность соответствует 97% от теоретической. То есть избыточность передачи информации очень невелика.

NVLink 2.0 увеличивает частоту сигнала, что приводит к увеличению пропускной способности. Впервые информация о NVLink 2.0 появилась в анонсе процессоров IBM Power9 в августе 2016. Примерно тогда же она стала ассоциироваться с Volta. С Volta NVIDIA планирует ускорить NVLink до 300 Гбайт/с при соединении двух конечных точек с полным числом каналов NVLink. С технологией NVLink первого поколения пропускная способность ограничивалась 160 Гбайт/с.

По мере того, как NVIDIA будет объявлять новые подробности на GPU Technology Conference, мы планируем публиковать дополнительные новости.

Сравнение вычислительной производительности

Для лучшего сравнения вычислительной производительности мы представили таблицу, где также приведены долгожданные ускорители Radeon Instinct.

Сравнение вычислительной производительности GPU-ускорителей
Модель	NVIDIA Tesla P100	NVIDIA Tesla V100	AMD Radeon Instinct MI25
GPU	GP100	GV100	Vega
FP64	5,3 TFLOPS	7,5 TFLOPS	-
FP32	10,6 TFLOPS	15 TFLOPS	12,5 TFLOPs
FP16	21,2 TFLOPS	30 TFLOPs	-
IN8	-	120 TFLOPs	-
Соотношение FP64/FP32	1/2	1/2	-
Тип памяти	HBM2	HBM2	HBM2
Объем памяти	16 GB	16 GB	16 GB
Интерфейс памяти	4.096 бит	4.096 бит	-
Пропускная способность памяти	720 Гбайт/с	900 Гбайт/с	-
Потоковые процессоры	3.840	5.120	4.096