> > > > A10 и A30: GPU для дата-центров на основе Ampere

A10 и A30: GPU для дата-центров на основе Ampere

Опубликовано:

nvidiaНа виртуальной GPU Technology Conference были представлены и новые GPU Ampere для дата-центров. Они дополняют high-end вариант A100 и A40, которые были представлены в октябре 2020 вместе с RTX A6000 для рабочих станций.

Архитектура Ampere с увеличенным числом вычислительных блоков FP32 и INT32 хорошо показывает себя по производительности рендеринга. NVIDIA представила как видеокарты для рабочих станций RTX (бывшие Quadro), так и GPU-ускорители для дата-центров. Из новых моделей отметим A30, A16 и A10. Технические подробности A30 и A10 уже были известны, а A16 сочетает четыре GPU на одной PCB. A10 и A16 ориентированы на виртуальные рабочие станции, а A30 обеспечивает достаточную производительность при расчетах любой точности благодаря GA100 GPU.

Подписывайтесь на группы Hardwareluxx ВКонтакте и Facebook, а также на наш канал в Telegram (@hardwareluxxrussia).

Сравнение видеокарт
  A100A40A30A10
GPU GA100GA102GA100GA102
Число транзисторов 54 млрд.28 млрд.54 млрд.28 млрд.
Техпроцесс 7 нм8 нм7 нм8 нм
Площадь кристалла 826 мм²628,4 мм²826 мм²628,4 мм²
Число FP32 ALU 13.82410.752-9.216
Число INT32 ALU 6.9125.376-4.608
Число SM 10884-72
Ядра Tensor 432336-288
Ядра RT -84-72
Производительность INT4 1.248/2.496 TOPS-661/1.321 TOPS500/1000 TOPS
Производительность INT8 624/1.248 TOPS-330/661 TOPS250/500 TOPS
Производительность FP16 312/624 TFLOPS-165/330 TFLOPS125/250 TFLOPS
Производительность Bfloat16 312/624 TFLOPS-165/330 TFLOPS125/250 TFLOPS
Производительность FP32 19,5 TFLOPS-10,3 TFLOPS31,2 TFLOPS
Производительность FP64 9,7/19,5 TFLOPS-5,2/10,3 TFLOPS-
Емкость памяти 40/80 GB48 GB24 GB24 GB
Тип памяти HBM2GDDR6HBM2GDDR6
Ширина шины памяти 5.120 бит384 бит3.072 бит384 бит
Пропускная способность памяти 2.039/1.555 Гбайт/с969 Гбайт/с933 Гбайт/с600 Гбайт/с
TDP 400/250 Вт300 Вт165 Вт150 Вт

*Указаны результаты производительности как в чистом виде для потоковых процессоров, так и с поддержкой ядер Tensor и Sparsity. Что касается памяти и TDP, следует различать варианты SMX4 и PCIe чипа A100, поэтому мы привели два значения. Последнее приведено для карты PCIe.

NVIDIA все еще не публикует данные производительности A40, который был объявлен осенью прошлого года. Однако мы знаем, что он базируется на GA102 GPU, как и новый A10. С него и начнем. Поскольку NVIDIA упоминает 72 ядра RT, можно рассчитывать на 288 ядер Tensor и 72 SM. Также можно говорить о 4.608 вычислительных блоках INT32 и 9.216 FP32. По чистой производительности A10 должен быть примерно на 15% медленнее A40. Кроме того, A40 в два раза "прожорливее" с уровнем 300 Вт, поэтому тактовые частоты выше, отсюда и производительность у него тоже будет значительно выше. 24 Гбайт памяти подключены с пропускной способностью 600 Гбайт/с, так что у A10 памяти меньше по сравнению с A40, она работает медленнее.

Вторая новинка - A30, но здесь основой является не GA10X GPU, а GA100 GPU с памятью HBM2. Здесь мы снова знаем результаты производительности от INT8 до FP64, но NVIDIA не дает подробностей о ступени расширения. Число ядер INT32 и FP32, а также RT и Tensor можно теоретически рассчитать, но все же следует дождаться официальной информации от NVIDIA.

A30 дает примерно половины производительности от A100. Но при этом он потребляет намного меньше энергии по сравнению с вариантом PCIe. Но имеются существенные отличия по объему памяти и интерфейсу. GA100 GPU оснащен 24 GB HBM2 с 3.072-битным подключением, что дает 933 Гбайт/с. NVIDIA использовала только три чипа памяти из шести возможных, что привело к соответствующей емкости и подключению.

Третий новый GPU-ускоритель в линейке A - A16. Однако A16 не совсем обычен, здесь NVIDIA дает меньше всего подробностей. По всей видимости, NVIDIA установила на PCB четыре Ampere GPU. Каждый работает с 16 GB GDDR6, то есть мы получаем 64 Гбайт в сумме. A16 будет интересен и как мультимедиа-ускоритель, и как видеокарта vGPU. Соответственно, на виртуальные GPU можно выделять 1, 2, 4, 8 или 16 GB видеопамяти. Также A16 предлагает четыре кодера NVENC или восемь декодеров NVDEC.

Все новые модели A Series поддерживают PCI Express 4.0, а A100, A40 и A30 могут группироваться с идентичными моделями с помощью NVLink. На A10 и A16 поддержки NVLink нет. Поскольку ускорители предназначены для дата-центров, они лишены видеовыходов. Впрочем, они здесь и не требуются. Охлаждение выполняется пассивно с помощью воздушного потока сервера. Питание на все модели поставляется через 8-контактные EPS12V.

A30 и A10 будут доступны в апреле этого года, но A16 выйдет позднее, в течение года.