Hardwareluxx > Новости > Железо > Видеокарты > NVIDIA Tesla P100 – самый мощный вычислительный ускоритель на GPU теперь с интерфейсом PCIe

NVIDIA Tesla P100 – самый мощный вычислительный ускоритель на GPU теперь с интерфейсом PCIe

Опубликовано: 20.06.2016 в 08:50 Андрей Шиллинг

На конференции GPU Technology Conference 2016 NVIDIA удивила многих, представив не только архитектуру Pascal, но и вычислительный ускоритель Tesla P100 на соответствующих GPU. Но первые модули Tesla P100 были представлены только в 8-чиповой конфигурации, например, тот же NVIDIA DGX-1. Для связи с другими компонентами использовался интерфейс NVLink.

Появление вычислительных ускорителей с интерфейсом PCI Express было лишь вопросом времени, и сегодня они представлены. Мы рекомендуем прочитать нашу новость, посвященную объявлению Tesla P100 на пленарном докладе GPU Technology Conference 2016. Также мы подробно рассмотрели архитектуру Pascal, в том числе ее вычислительную производительность. Архитектура Pascal в виде GPU GP104 также используется на игровых видеокартах GeForce GTX 1080, но там имеются важные отличия. Упомянем Unified Memory, ECC с памятью HBM2 и NVLink. Также мы рекомендуем ознакомиться и с серверами на основе 8-чиповых DGX-1.

Но вернемся к Tesla P100 с интерфейсом PCI Express. Подход не изменился: если требуется высокая вычислительная производительность в как можно меньшем пространстве, NVIDIA рекомендует Tesla P100. В фокусе находятся и сети глубокого обучения, процесс тренировки в которых выиграет от высокой производительности FP16 и скоростной памяти.

Почти во всех сценариях Tesla P100 демонстрирует существенные преимущества по сравнению с GPU-ускорителями на архитектуре Maxwell. Конечно, сильнее всего выигрывают те сети, которые были оптимизированы под интерфейс NVIDIA. Здесь можно отметить Caffe и Alexnet.

NVIDIA Tesla P100

По аппаратному обеспечению между версиями Tesla P100 с интерфейсом NVLink и PCI Express имеются некоторые отличия. Вычислительна производительность варианта NVLink составляет 5,3 TFLOPS с двойной и 10,6 TFLOPS с одинарной точностью, чуть выше двух версий PCI Express. Вероятно, причина кроется в дизайне системы охлаждения и ограничениях, накладываемых спецификацией PCI Express. Но NVIDIA предлагает и разные конфигурации памяти. Вычислительная производительность составляет 4,7 TFLOPS с двойной и 9,3 TFLOPS с одинарной точностью. Важная для сетей Deep Learning производительность FP16 была уменьшена с 21 TFLOPS до 18,7 TFLOPS.

Конфигурация памяти первой версии идентична ранее объявленному ускорителю: 16 Гбайт HBM2 с пропускной способностью 720 Гбайт/с. Вторая конфигурация оснащена 12 Гбайт памяти с пропускной способностью 540 Гбайт/с. Если ускорители Tesla P100 с интерфейсом NVLink теоретически подключались к серверу с пропускной способностью более 160 Гбайт/с, пропускная способность PCI Express ограничивается 32 Гбайт/с в двух направлениях. В этом кроется самое серьезное ограничение версий PCI Express.

Ускорители Tesla P100 с интерфейсом PCI Express будут доступны в четвертом квартале. NVIDIA назвала таких партнеров, как Cray, Dell, Hewlett Packard Enterprise, IBM и SGI. Цена пока неизвестна.