> > > > Новые ядра Tensor, FP8 и более высокие тактовые частоты: улучшения NVIDIA GH100 GPU

Новые ядра Tensor, FP8 и более высокие тактовые частоты: улучшения NVIDIA GH100 GPU

Опубликовано:

h100-gpuНа весенней конференции GPU Technology Conference NVIDIA представила GH100 GPU на основе архитектуры Hopper, а также соответствующий ускоритель H100. На нынешней конференции Hotchips 34 NVIDIA рассказала о проблемах, которые возникли при реализации дизайна, а также о том, как оптимально нагрузить подобный GPU с 16.896 вычислительными ядрами FP32, 528 ядрами Tensor, 50 Мбайт кэша L2 и 80 Гбайт HBM3, не говоря уже о системах, в которых сотни или даже тысячи подобных GPU будут работать вместе.

GH100 GPU производится по 4-нм техпроцессу и имеет площадь 814 мм², на которой расположены 80 млрд. транзисторов. Если вернуться на десять лет назад, тогда NVIDIA предлагала GK110 GPU для видеокарты GeForce GTX Titan, например. И один кластер GPC (Graphics Processing Cluster) архитектуры Hopper примерно сравним с полным GPU GK110. Но в составе GH100 GPU используются восемь подобных кластеров.

Чтобы более эффективно задействовать подобный GPU, его разумно разделить на несколько частей. Собственно, здесь подразумевается создание виртуальных инстанций, что в случае предшественника скрывалось за технологией Multi-Instance GPU (MIG). Кластеризация и асинхронное выполнение рабочих задач существенно увеличивают эффективность и загрузку ускорителя H100. Сама NVIDIA говорит об увеличении в x1,7-2,7 раза.

Если сравнить ускоритель H100 с предшественником A100, то сразу же видно, что NVIDIA увеличила число SM до 132, то есть речь идет о 20% приросте функциональных блоков. Но производительность в различных приложениях увеличилась в шесть раз и выше.

На конференции Hotchips NVIDIA рассказала подробности, как именно планируется получить такой прирост производительности. Чистая производительность увеличилась на 20% из-за 20% повышения числа функциональных блоков. Ядра Tensor четвертого поколения стали существенно быстрее благодаря поддержке дополнительных форматов данных, в том числе FP8, что приводит к приросту эффективности 30%. По производительности новые ядра Tensor дают удвоение по сравнению с архитектурой Ampere. Дальнейшее удвоение связано с поддержкой FP8. Наконец, добавляется 30% производительности из-за увеличения тактовых частот, что дает 6x прирост без оптимизации непосредственно приложений.

Прямого сравнения производительности ускорителей H100 и AMD Instinct MI250X пока не проведено. Также интересно будет сравнить производительность с ускорителем Intel Ponte Vecchio. Три указанных модели будут конкурировать в сегменте HPC, ИИ и дата-центров в будущем 2023 году.

Подписывайтесь на группу Hardwareluxx ВКонтакте и на наш канал в Telegram (@hardwareluxxrussia).

Мы рекомендуем ознакомиться с нашим руководством по выбору видеокарты для разных бюджетов.