> > > > NVIDIA завершила покупку Mellanox и приоткрыла планы по архитектуре Ampere

NVIDIA завершила покупку Mellanox и приоткрыла планы по архитектуре Ampere

Опубликовано:

nvidiaNVIDIA объявила о завершении приобретения Mellanox. Об этом намерении NVIDIA рассказала еще в марте 2019, но, как обычно бывает, на различные согласования ушли месяцы.

В рамках приобретения Mellanox CEO NVIDIA Дженсен Хуан дал интервью изданию The Next Platform, которое содержит интересную информацию. Также в нем есть намеки на пленарный доклад на конференции GPU Technology Conference, который Дженсен прочитает в онлайне 14 мая.

С покупкой Mellanox NVIDIA усиливает свое положение в сегменте дата-центров. Tesla GPGPU обеспечивают необходимую вычислительную мощность на аппаратном уровне, соединение между ними осуществляется через NVLink. В интервью Дженсен подчеркнул значимость быстрых соединений компонентов. При возможности, данные не следует передавать между точками A и B в полном объеме, их следует оптимизировать, сжать и уменьшить. И как раз за эту задачу и отвечают так называемые SmartNIC.

Важность скоростных интерконнектов очевидна в сфере дата-центров. Конечно, сегодня производители пытаются прийти к соглашению по единому стандарту, и здесь интерконнект CXL выглядит весьма перспективным внутри узла. Между узлами и стойками используется другой интерконнект - Gen-Z. И здесь как раз активна Mellanox.

Похоже, что NVIDIA намеревается интегрировать интерконнект и сетевые технологии более глубоко в свои GPGPU. В таком случае центральный процессор для управления на уровне данных технологий уже не требуется. В принципе, у тех же ускорителей тренировки сетей глубокого обучения Gaudi от Habana Labs присутствуют десять сетевых контроллеров на 100 Гбит/с. Для Habana Labs очень важны быстрые интерконнекты с минимальными задержками.

14 мая NVIDIA расскажет, какую именно интеграцию она запланировала для технологий Mellanox. Если верить Дженсену Хуангу, Mellanox останется отдельным подразделением, которое продолжит работать независимо. Так что Mellanox продолжит сотрудничество и с другими компаниями.

Новости Ampere

Хуанг также высказался о большей гибкости будущих ускорителей ИИ. На данный момент ускорители Tesla V100 ориентированы на тренировку сетей глубокого обучения, в то время как инференс лучше всего работает на ускорителях Turing (Tesla T4). Архитектура Volta оптимизирована под высокую производительность HPC с высокой точностью, но вместе с тем предлагает ядра Tensor.

"Today our Volta GPUs are really designed for scale up training and our Turing GPUs are designed for scale out inference. They are fine in the beginning of the AI revolution. But if you want your datacenter to be completely programable, then the processors there – including the GPUs – really want to be a lot more flexible."

Таким образом, архитектура Ampere будет намного более гибкой, чем нынешнее разделение на Volta и Turing.

Сравнение архитектур
VoltaTuring
GPUV100TU102
Ядра FP64 / SM322
Ядра FP64 / GPU 2.560144
ЯдраTensor / SM 88
Ядра Tensor / GPU

640

576
Производительность FP64 8,2 TFLOPS510 GFLOPS
Производительность FP32 16,4 TFLOPS16,3 TFLOPS
Производительность FP16 32,8 TFLOPS32,6 TFLOPS
Производительность INT8 130 TOPS261 TOPS
Производительность INT4 260 TOPS522 TOPS
Память 32 GB HBM2
4.096 бит
1.134 Гбайт/с
48 GB GDDR6
384 бит
672 Гбайт/с

Сравнение архитектур Volta и Turing хорошо показывает отличия. В архитектуре Volta NVIDIA предлагает 32 ядра FP64 на Streaming Multiprocessor (SM), в случае же Turing доступны только два. Соответственно, архитектура Turing обеспечивает очень низкую производительность вычислений FP64. В случае FP32 и FP16 обе архитектуры выступают примерно на равных в максимальных версиях чипов.

NVIDIA оптимизировала ядра Tensor в архитектуре Turing таким образом, чтобы они обеспечивали удвоение производительности FP в режиме INT8 Precision Mode: 2.048 целочисленных операций за такт. То есть обеспечивается высокая вычислительная производительность при низкой точности. Ядра Tensor также поддерживают вычисления FP16 на GPU с архитектурами Volta и Turing. В таблице выше показана производительность TFLOPS только на потоковых процессорах.

Подписывайтесь на группы Hardwareluxx ВКонтакте и Facebook, а также на наш канал в Telegram (@hardwareluxxrussia).