NVIDIA Tesla T4 - ускоритель инференса с 320 тензорными ядрами

Опубликовано:

nvidia-teslat4На конференции GPU Technology Conference в Японии NVIDIA представила ускоритель для инференса - обработки запросов в сеть глубокого обучения. В отличие от предыдущих ускорителей инференса, NVIDIA использовала специализированный чип, который предлагает максимум производительности для вычислений с небольшой точностью FP16, INT8 и INT4.

Если верить NVIDIA, Tesla T4 содержит 320 тензорных ядер и 2.560 потоковых процессоров. Как можно видеть по названию, NVIDIA выбрала архитектуру Turing. Таким образом, вслед за ускорителями Quadro RTX и игровыми видеокартами GeForce RTX 20 NVIDIA продолжает расширять свой ассортимент, теперь новая архитектура GPU используется и в ускорителях Tesla. Но Tesla T4 - лишь первая модель, вскоре последуют и остальные.

Вычислительная производительность Tesla T4 составляет 8,1 TFLOPS с одинарной точностью (FP32), 65 TFLOPS со смешанной точностью (FP16/FP32), 130 TOPS (INT8) и 260 TOPS (INT4). С 320 тензорными ядрами и 2.560 потоковыми процессорами пока не совсем понятно, какой именно GPU Turing использует NVIDIA. GPU TU106 содержит в полной версии 2.304 потоковых процессора, при этом число тензорных ядер ограничено 288. Слишком мало. Так что в данном случае, скорее всего, речь идет о GPU TU104, в максимальной конфигурации он содержит 3.072 потоковых процессора и 384 тензорных ядра.

Ускоритель инференса изготовлен в формате карты расширения PCI Express и содержит 16 Гбайт памяти GDDR6 с пропускной способностью 320 Гбайт/с. Энергопотребление ускорителя PCI Express составляет 75 Вт.

Ускорители инференса должны как можно быстрее синхронизировать поступающие данные с сетью глубокого обучения, а также выдавать результаты по запросам. Здесь важен и объем обрабатываемых данных, и задержки. Ускорители Tesla T4 могут обрабатывать до 38 потоков видео Full-HD.

Цены ускорителей Tesla T4 пока неизвестны. Интересно, что Google будет использовать Tesla T4 в своей облачной платформе.