> > > > A100 PCIe: NVIDIA GA100 GPU выходит в варианте PCI Express

A100 PCIe: NVIDIA GA100 GPU выходит в варианте PCI Express

Опубликовано:

a100-pcieВ середине мая NVIDIA представила A100, первый ускоритель GPU на основе архитектуры Ampere. С площадью 826 мм² и 54 млрд. транзисторов чип GA100 GPU стал самым крупным кристаллом, когда-либо выпускавшимся по 7-нм техпроцессу. Вместе с контрактным производителем TSMC NVIDIA подобралась к пределу технических возможностей.

До сих пор ускоритель A100 был доступен только в виде модулей SXM4. Но сегодня NVIDIA анонсировала намерение выпустить GA100 GPU и в виде карт A100 PCIe. На карте PCI Express используется тот же самый GA100 GPU в идентичном уровне расширения. Речь идет о 6.912 потоковых процессорах и 432 новых ядер Tensor третьего поколения. 40 Гбайт памяти HBM2 подключены по 5.120-битной шине. Здесь NVIDIA не различает варианты PCIe и SXM4.

A100 PCIe - первый GPU-ускоритель NVIDIA с поддержкой PCI Express 4.0. С подключением через 16 линий пропускная способность удваивается с 15,8 до 31,5 Гбайт/с. Высокая пропускная способность весьма важна для дата-центров, по этой причине NVIDIA опирается на фирменный интерфейс NVLink в старших вариантах A100. Вместе с тем использование PCI Express 4.0 в ускорителях A100 PCIe намекает на то, что производные GeForce на архитектуре Ampere будут использовать более скоростной стандарт, если они появятся.

NVIDIA указала вычислительную производительность A100 PCIe на уровне, идентичном варианту SXM4. Но это верно для теплового пакета 400 Вт, хотя вариант PCIe работает лишь с 250 Вт. NVIDIA оправдывает приведение идентичных спецификаций пиковым уровнем энергопотребления и производительности. NVIDIA утверждает, что под продолжительной нагрузкой вычислительная производительность снижается всего на 10%. Впрочем, нам такой прогноз кажется излишне оптимистичным. Снижение TDP с 400 до 250 Вт должно сильнее сказаться на вычислительной производительности, хотя GA100 GPU на 250 Вт должны работать с большей эффективностью.

Подписывайтесь на группы Hardwareluxx ВКонтакте и Facebook, а также на наш канал в Telegram (@hardwareluxxrussia).

Мы рекомендуем ознакомиться с нашим руководством по выбору видеокарты для разных бюджетов.

Сравнение архитектур
  A100 PCIe V100S PCIe Quadro RTX 8000
GPU GA100 GV100 TU102
SMs 108 80 72
Ядра FP64 / SM 32 32 2
Ядра FP64 / GPU 3.456 2.560 144
Ядра FP32 / SM 64  64  
Ядра FP32 / GPU 6.912  5.120  
Ядра Tensor / SM 4 8 8
Ядра Tensor / GPU 432

640

576
Производительность FP64 9,7 TFLOPS 8,2 TFLOPS 510 GFLOPS
Производительность FP64 с ядрами Tensor 19,5 TFLOPS - -
Производительность FP32 19,5 TFLOPS 16,4 TFLOPS 16,3 TFLOPS
Производительность TF32 156 / 312 TFLOPS - -
Производительность FP16 39 TFLOPS 32,8 TFLOPS 32,6 TFLOPS
Производительность FP16 с ядрами Tensor 312 / 624 TFLOPS - -
Производительность BFLOAT16 312 / 624 TFLOPS - -
Производительность INT8 624 / 1.248 TOPS 130 TOPS 261 TOPS
Производительность INT4 1.248 / 2.496 TOPS 260 TOPS 522 TOPS
Память 40 GB HBM2
5.120 бит
1.536 Гбайт/с
32 GB HBM2
4.096 бит
1.134 Гбайт/с
48 GB GDDR6
384 бит
672 Гбайт/с
TDP 250 Вт 250 Вт 280 Вт
PCIe 4.0 3.0 3.0

Еще раз отметим, что NVIDIA указывает значения производительности A100 PCIe для пикового уровня энергопотребления GA100.

По сравнению с предшественницей Tesla V100 NVIDIA утверждает о приросте производительности в 20 раз. То же самое утверждалось и для варианта Volta в формате SXM. Насколько все это соответствует ускорителю PCI Express - уже другой вопрос.

Вычислительные блоки FP32 и FP64 обеспечивают высокий уровень производительности для вычислений с плавающей запятой с высокой точностью. В тех областях, где требуется меньшая точность, свой вклад уже вносят ядра Tensor третьего поколения. Как и ожидалось, NVIDIA расширила функциональность ядер Tensor, теперь они могут выполнять вычисления FP32 и FP64 в дополнение к INT16 и FP16, если требуется высокая точность. Таким образом, ядра Tensor не только существенно увеличивают производительность в сфере ИИ, но и поддерживают потоковые процессоры в сфере высокопроизводительных вычислений HPC, требующих высокой точности. NVIDIA указывает 20-кратный прирост вычислительной производительности ИИ при работе с данными FP32.

Вместе с третьим поколением ядер Tensor, NVIDIA представила новый формат работы с плавающей запятой. А именно TF32 или Tensor Float 32, который обеспечивает диапазон значений FP32, но точность лишь FP16. Таким образом, NVIDIA сочетает преимущества FP32 и FP16, адаптируя их к потребностям в определенных сферах.

Что касается вычислительной производительности, NVIDIA представила новую технологию Sparsity/Sparse Matrix (разреженная матрица). Если матрица состоит из большого числа нулевых записей, то для ее хранения и вычислений можно использовать более эффективные способы. NVIDIA обеспечивает теоретическое удвоение вычислительной производительности при активной Structural Sparsity.

A100 PCIe тоже поддерживает скоростные интерконнекты NVLink. Но в версии PCI Express можно объединять только две карты, в случае же вариантов SXM4 поддерживается соединение до восьми ускорителей. Все восемь GPU соединяются через коммутатор NVSwitch. С ускорителями PCI Express можно соединить лишь два GPU через NVLink с пропускной способностью 600 Гбайт/с (12 каналов NVLink по 50 Гбайт/с каждый). Для этой цели в верхней части каждой карты можно видеть три интерфейса NVLink.

С TDP 250 Вт на карту необходимо подавать питание. На изображениях карты разъемы не показаны, но конфигурация должна составлять 2x 8-конт. или 1x 8-конт. + 1x 6-конт. Своего вентилятора у карты нет, предполагается, что охлаждение будет обеспечиваться средствами сервера. Видеовыходов на A100 PCIe тоже нет.

Поддержка Multi Instance GPU

Как и в случае варианта SXM4, карта A100 PCIe поддерживает Multi Instance GPU (MIG). Новая технология заключается в трансформации доступных ресурсов в семь независимых инстанций через Multi Instance GPU (MIG). GA100 GPU, в таком случае, представляет собой семь отдельных "младших" GPU. И семи виртуальным GPU будут присвоены собственные ресурсы по пропускной способности памяти, кэшам и т.д. В итоге GA100 GPU эффективно заменяет семь Tesla T4.

Если верить NVIDIA, технология MIG является отличным способом превращения обычно негибких GPU в Elastic Datacenter GPU, которые можно использовать для различных сценариев. Предыдущая технология Virtual GPU (vGPU) требовала многослойной программной обвязки (hypervisor и программа виртуализации) для такого же эффекта. Но MIG обеспечивает виртуализацию GPU намного ближе к аппаратному уровню, в итоге данная функция работает намного более эффективно - без дополнительных уровней абстракции.

Позвольте сказать еще пару слов о вычислительной производительности A100 PCIe. Как утверждает NVIDIA, она идентична варианту SXM4 под пиковым энергопотреблением/нагрузкой, но при длительной нагрузке примерно на 10% ниже. Впрочем, здесь все еще зависит от используемых данных. У A100 PCIe доступны 40 Гбайт памяти HBM2. Две карты, таким образом, могут работать с 80 Гбайт памяти. Для сетей глубокого обучения и других сценариев, требующих намного больших объемов данных, NVIDIA указывает падение производительности на 50%. И две пары карт A100 PCIe (каждая подключена через NVLink) не будут иметь такую же производительность, что и система DGX с четырьмя A100 SXM4 GPU.

NVIDIA пока не назвала цену A100 PCIe. Но карты Tesla V100 с 16 GB HBM2 уже стоят €7.990 (622 тыс. рублей), а вариант с 32 Гбайт - почти €10.000 (779 тыс. рублей). A100 PCIe изначально будут доступны для OEM и ODM.

Мы уже опубликовали несколько обзоров архитектуры Ampere, с которыми рекомендуем ознакомиться.