> > > > Первые разработчики получили ускорители Tesla V100

Первые разработчики получили ускорители Tesla V100

Опубликовано:

nvidia-tesla-p100

На GPU Technology Conference в середине мая NVIDIA представила архитектуру Volta и ускоритель Tesla V100. Описание архитектуры Volta можно найти в соответствующей статье. На конференции "Computer Vision and Pattern Recognition Conference", которая прошла на Гавайях, производитель начал продажи первых моделей для разработчиков в формате карт PCI Express.

Но из всех 150 участников конференции ускоритель Tesla V100 смогли получить только 15. Видеокарты вручал собственноручно Дженсен Хуанг - CEO корпорации NVIDIA. На упаковке также присутствовало персональное обращение к адресату.

NVIDIA разработала Tesla V100 и чип GV100 специально для работы в сетях глубокого обучения. Производитель применил так называемые ядра Tensor, чтобы достичь производительности в 120 TFLOPS.

Такая производительность подразумевает огромные затраты при разработке и изготовлении ускорителей. Например, GPU производится по 12-нм техпроцессу на заводах TSMC. Он насчитывает 5.120 потоковых процессоров, 640 ядер Tensor и более, чем 6 Мбайт кэша L2, что вылось в чип площадью 815 мм², состоящий из 21,1 миллиарда транзисторов. NVIDIA работает практически на пределе современных технологий.

Кроме чистой вычислительной производительности, NVIDIA значительно увеличила ёмкость памяти и изменила иерархию кэшей. 16 Гбайт памяти HBM2 может передавать данные на скорости до 900 Гбайт/с. Пропускная способность кэша L1 составляет 14 Тбайт/с. Задержки тоже должны быть меньше. Все это говорит об огромном потенциале ускорителя.

Обзор моделей Tesla V100
Модель Tesla P100 (SMX2) Tesla V100 (SMX2) Tesla V100 (PCIe)
Характеристики
GPU GP100 GV100 GV100
Техпроцесс 16 нм 12 нм 12 нм
Транзисторы 15,3 млрд. 21 млрд. 21 млрд.
Площадь чипа 610 мм² 815 мм² 815 мм
Частота GPU (Base) 1.328 МГц - -
Частота GPU (Boost) 1.480 МГц 1.455 МГц 1.370 МГц
Частота памяти 737 МГц 878 МГц 878 МГц
Тип памяти HBM2 HBM2 HBM2
Объем памяти 16 GB 16 GB 16 GB
Ширина шины памяти 4.096 бит 4.096 бит 4.096 бит
Пропускная способность 720 Гбайт/с 900 Гбайт/с 900 Гбайт/с
Потоквые процессоры 3.584 5.120 5.120
Ядра Tensor - 640 640
FP16 21,2 TFLOPS 30 TFLOPS 28 TFLOPS
FP32 10,6 TFLOPS 15 TFLOPS 14 TFLOPS
FP64 5,3 TFLOPS 7,5 TFLOPS 7 TFLOPPS
Int8 - 120 TFLOPS 112 TFLOPS
TDP 300 Вт 300 Вт 250 Вт

Некоторым компаниям, которые производят суперкомпьютеры, NVIDIA уже начала поставки Tesla V100 в формате SMX2. К концу года количество доступных ускорителей значительно увеличится. Тогда же ожидается, что на рынке будет больше карт в формате PCI Express. Цена должна быть не ниже предыдущей версии, которая стоит около 7.000 евро.