Hardwareluxx > Новости > Железо > Видеокарты > A10 и A30: GPU для дата-центров на основе Ampere

A10 и A30: GPU для дата-центров на основе Ampere

Опубликовано: 12.04.2021 в 19:48 Андрей Шиллинг

nvidia На виртуальной GPU Technology Conference были представлены и новые GPU Ampere для дата-центров. Они дополняют high-end вариант A100 и A40, которые были представлены в октябре 2020 вместе с RTX A6000 для рабочих станций.

Архитектура Ampere с увеличенным числом вычислительных блоков FP32 и INT32 хорошо показывает себя по производительности рендеринга. NVIDIA представила как видеокарты для рабочих станций RTX (бывшие Quadro), так и GPU-ускорители для дата-центров. Из новых моделей отметим A30, A16 и A10. Технические подробности A30 и A10 уже были известны, а A16 сочетает четыре GPU на одной PCB. A10 и A16 ориентированы на виртуальные рабочие станции, а A30 обеспечивает достаточную производительность при расчетах любой точности благодаря GA100 GPU.

Подписывайтесь на группы Hardwareluxx ВКонтакте и Facebook, а также на наш канал в Telegram (@hardwareluxxrussia).

Сравнение видеокарт
	A100	A40	A30	A10
GPU	GA100	GA102	GA100	GA102
Число транзисторов	54 млрд.	28 млрд.	54 млрд.	28 млрд.
Техпроцесс	7 нм	8 нм	7 нм	8 нм
Площадь кристалла	826 мм²	628,4 мм²	826 мм²	628,4 мм²
Число FP32 ALU	13.824	10.752	-	9.216
Число INT32 ALU	6.912	5.376	-	4.608
Число SM	108	84	-	72
Ядра Tensor	432	336	-	288
Ядра RT	-	84	-	72
Производительность INT4	1.248/2.496 TOPS	-	661/1.321 TOPS	500/1000 TOPS
Производительность INT8	624/1.248 TOPS	-	330/661 TOPS	250/500 TOPS
Производительность FP16	312/624 TFLOPS	-	165/330 TFLOPS	125/250 TFLOPS
Производительность Bfloat16	312/624 TFLOPS	-	165/330 TFLOPS	125/250 TFLOPS
Производительность FP32	19,5 TFLOPS	-	10,3 TFLOPS	31,2 TFLOPS
Производительность FP64	9,7/19,5 TFLOPS	-	5,2/10,3 TFLOPS	-
Емкость памяти	40/80 GB	48 GB	24 GB	24 GB
Тип памяти	HBM2	GDDR6	HBM2	GDDR6
Ширина шины памяти	5.120 бит	384 бит	3.072 бит	384 бит
Пропускная способность памяти	2.039/1.555 Гбайт/с	969 Гбайт/с	933 Гбайт/с	600 Гбайт/с
TDP	400/250 Вт	300 Вт	165 Вт	150 Вт

*Указаны результаты производительности как в чистом виде для потоковых процессоров, так и с поддержкой ядер Tensor и Sparsity. Что касается памяти и TDP, следует различать варианты SMX4 и PCIe чипа A100, поэтому мы привели два значения. Последнее приведено для карты PCIe.

NVIDIA все еще не публикует данные производительности A40, который был объявлен осенью прошлого года. Однако мы знаем, что он базируется на GA102 GPU, как и новый A10. С него и начнем. Поскольку NVIDIA упоминает 72 ядра RT, можно рассчитывать на 288 ядер Tensor и 72 SM. Также можно говорить о 4.608 вычислительных блоках INT32 и 9.216 FP32. По чистой производительности A10 должен быть примерно на 15% медленнее A40. Кроме того, A40 в два раза "прожорливее" с уровнем 300 Вт, поэтому тактовые частоты выше, отсюда и производительность у него тоже будет значительно выше. 24 Гбайт памяти подключены с пропускной способностью 600 Гбайт/с, так что у A10 памяти меньше по сравнению с A40, она работает медленнее.

Вторая новинка - A30, но здесь основой является не GA10X GPU, а GA100 GPU с памятью HBM2. Здесь мы снова знаем результаты производительности от INT8 до FP64, но NVIDIA не дает подробностей о ступени расширения. Число ядер INT32 и FP32, а также RT и Tensor можно теоретически рассчитать, но все же следует дождаться официальной информации от NVIDIA.

A30 дает примерно половины производительности от A100. Но при этом он потребляет намного меньше энергии по сравнению с вариантом PCIe. Но имеются существенные отличия по объему памяти и интерфейсу. GA100 GPU оснащен 24 GB HBM2 с 3.072-битным подключением, что дает 933 Гбайт/с. NVIDIA использовала только три чипа памяти из шести возможных, что привело к соответствующей емкости и подключению.

Третий новый GPU-ускоритель в линейке A - A16. Однако A16 не совсем обычен, здесь NVIDIA дает меньше всего подробностей. По всей видимости, NVIDIA установила на PCB четыре Ampere GPU. Каждый работает с 16 GB GDDR6, то есть мы получаем 64 Гбайт в сумме. A16 будет интересен и как мультимедиа-ускоритель, и как видеокарта vGPU. Соответственно, на виртуальные GPU можно выделять 1, 2, 4, 8 или 16 GB видеопамяти. Также A16 предлагает четыре кодера NVENC или восемь декодеров NVDEC.

Все новые модели A Series поддерживают PCI Express 4.0, а A100, A40 и A30 могут группироваться с идентичными моделями с помощью NVLink. На A10 и A16 поддержки NVLink нет. Поскольку ускорители предназначены для дата-центров, они лишены видеовыходов. Впрочем, они здесь и не требуются. Охлаждение выполняется пассивно с помощью воздушного потока сервера. Питание на все модели поставляется через 8-контактные EPS12V.

A30 и A10 будут доступны в апреле этого года, но A16 выйдет позднее, в течение года.