На GPU Technology Conference в середине мая NVIDIA представила архитектуру Volta и ускоритель Tesla V100. Описание архитектуры Volta можно найти в соответствующей статье. На конференции "Computer Vision and Pattern Recognition Conference", которая прошла на Гавайях, производитель начал продажи первых моделей для разработчиков в формате карт PCI Express.
Но из всех 150 участников конференции ускоритель Tesla V100 смогли получить только 15. Видеокарты вручал собственноручно Дженсен Хуанг - CEO корпорации NVIDIA. На упаковке также присутствовало персональное обращение к адресату.
NVIDIA разработала Tesla V100 и чип GV100 специально для работы в сетях глубокого обучения. Производитель применил так называемые ядра Tensor, чтобы достичь производительности в 120 TFLOPS.
Такая производительность подразумевает огромные затраты при разработке и изготовлении ускорителей. Например, GPU производится по 12-нм техпроцессу на заводах TSMC. Он насчитывает 5.120 потоковых процессоров, 640 ядер Tensor и более, чем 6 Мбайт кэша L2, что вылось в чип площадью 815 мм², состоящий из 21,1 миллиарда транзисторов. NVIDIA работает практически на пределе современных технологий.
Кроме чистой вычислительной производительности, NVIDIA значительно увеличила ёмкость памяти и изменила иерархию кэшей. 16 Гбайт памяти HBM2 может передавать данные на скорости до 900 Гбайт/с. Пропускная способность кэша L1 составляет 14 Тбайт/с. Задержки тоже должны быть меньше. Все это говорит об огромном потенциале ускорителя.
Обзор моделей Tesla V100 | |||
---|---|---|---|
Модель | Tesla P100 (SMX2) | Tesla V100 (SMX2) | Tesla V100 (PCIe) |
Характеристики | |||
GPU | GP100 | GV100 | GV100 |
Техпроцесс | 16 нм | 12 нм | 12 нм |
Транзисторы | 15,3 млрд. | 21 млрд. | 21 млрд. |
Площадь чипа | 610 мм² | 815 мм² | 815 мм |
Частота GPU (Base) | 1.328 МГц | - | - |
Частота GPU (Boost) | 1.480 МГц | 1.455 МГц | 1.370 МГц |
Частота памяти | 737 МГц | 878 МГц | 878 МГц |
Тип памяти | HBM2 | HBM2 | HBM2 |
Объем памяти | 16 GB | 16 GB | 16 GB |
Ширина шины памяти | 4.096 бит | 4.096 бит | 4.096 бит |
Пропускная способность | 720 Гбайт/с | 900 Гбайт/с | 900 Гбайт/с |
Потоквые процессоры | 3.584 | 5.120 | 5.120 |
Ядра Tensor | - | 640 | 640 |
FP16 | 21,2 TFLOPS | 30 TFLOPS | 28 TFLOPS |
FP32 | 10,6 TFLOPS | 15 TFLOPS | 14 TFLOPS |
FP64 | 5,3 TFLOPS | 7,5 TFLOPS | 7 TFLOPPS |
Int8 | - | 120 TFLOPS | 112 TFLOPS |
TDP | 300 Вт | 300 Вт | 250 Вт |
Некоторым компаниям, которые производят суперкомпьютеры, NVIDIA уже начала поставки Tesla V100 в формате SMX2. К концу года количество доступных ускорителей значительно увеличится. Тогда же ожидается, что на рынке будет больше карт в формате PCI Express. Цена должна быть не ниже предыдущей версии, которая стоит около 7.000 евро.