Hardwareluxx > Новости > Софт > Тесты > MLPerf Inference 4.0: успешный дебют NVIDIA H200

MLPerf Inference 4.0: успешный дебют NVIDIA H200

Опубликовано: 27.03.2024 в 18:12 Андрей Шиллинг

hardwareluxx news new MLCommons – консорциум различных производителей, целью которого является предоставление независимых и сопоставимых бенчмарков для оборудования центров обработки данных. Сегодня он опубликовал результаты теста Inference 4.0. В нем дебютировал ускоритель NVIDIA H200, который также основан на архитектуре Hopper и имеет ту же ступень расширения, что и ускоритель NVIDIA H200, но использует 141 ГБ HBM3E вместо 80 ГБ HBM2.

HBM3E будет использоваться во всех будущих ускорителях ИИ. NVIDIA уже анонсировала свой GPU Blackwell с HBM3E, а AMD, как говорят, планирует перевести свои ускорители Instinct MI300A/X на HBM3E. Высокая пропускная способность более быстрой памяти особенно заметна при инференсе и тренировке больших языковых моделей (LLM). Поскольку в настоящее время почти все в центрах обработки данных сосредоточено на генеративном ИИ и LLM, неудивительно, что производители аппаратного обеспечения концентрируют на них все свое внимание.

В рамках результатов Inference 4.0 мы получили первое независимое сравнение между NVIDIA H100, новым H200 и ускорителем Intel Gaudi 2. В данном бенчмарке приложений для ЦОД акцент смещен на инференс. Используются модели, которые прошли полную тренировку, выполняется только инференс. В настоящее время NVIDIA предполагает, что 40% выпускаемого аппаратного обеспечения будет использоваться для инференса, и эта доля продолжит увеличиваться. Собственно, в этом одна из причин, почему NVIDIA разработала Blackwell GPU с учетом инференса.

Мы выбрали несколько результатов инференса для модели Llama 2 с 70 миллиардами параметров, первый раз в оффлайн режиме, второй – в онлайн. Мы выбрали системы с восемью ускорителями каждая, но разными профилями производительности.

Llama 2 c 70 млрд. параметров

Server

NVIDIA 8x H200 (1.000 W)

29526.33 XX

NVIDIA 8x H200 (700 W)

26485.43 XX

NVIDIA 8x H100 (700 W)

20556.40 XX

NVIDIA 8x H100 (MaxQ)

15487.46 XX

Intel 8x Gaudi 2 (600 W)

6287.47 XX

токены/с

Больше - лучше

Llama 2 c 70 млрд. параметров

Offline

NVIDIA 8x H200 (1.000 W)

31712.00 XX

NVIDIA 8x H200 (700 W)

27738.30 XX

NVIDIA 8x H100 (700 W)

21805.80 XX

NVIDIA 8x H100 (MaxQ)

17561.60 XX

Intel 8x Gaudi 2 (600 W)

8034.85 XX

токены/с

Больше - лучше

Ускорители в бенчмарках выполняли типичную нагрузку при ответе на запросы LLM. Производительность измерялась в токенах в секунду, то есть сколько мельчайших единиц LLM в секунду может обработать система.

Ускорители H200 как минимум в четыре раза быстрее, чем ускорители Gaudi 2 от Intel. Прирост от перехода с H100 на H200 при мощности 700 Вт составляет 30%. При использовании специального охлаждения Custom Cooling Solution (CTS) ускорители H200 достигают прироста в 45% по сравнению с H100. Однако следует отметить, что решение CTS мощностью 1.000 Вт потребляет на 43% больше, но при этом быстрее всего на 15%. В этой конфигурации ускорители H200 работают далеко за пределами идеального рабочего окна эффективности.

Системы DGX и MGX с ускорителями H100 могут быть модернизированы до ускорителей H200. Грядущие ускорители B100 также совместимы с ними. NVIDIA уже начала поставлять первые ускорители H200 провайдерам облачных услуг и OEM-производителям. Таким образом, ускорители уже близки к выходу на рынок.

Intel наравне только по TCO

В результатах вычислений нет и следа ускорителей Instinct MI300A/X. Intel по-прежнему представлена ускорителями Gaudi 2, но их производительность оставляет желать лучшего.

С другой стороны, по соотношению цена/производительность ускорители все еще впереди. Intel может набрать очки за счет того, что ускорители Gaudi 2 доступны и сравнительно дешевы, в то время как купить ускорители H100 и, вероятно, H200 в настоящее время все еще несколько затруднительно.

Если вы хотите более подробно ознакомиться с цифрами или результатами MLPerf, то рекомендуем обратиться к сайту консорциума.

Подписывайтесь на группу Hardwareluxx ВКонтакте и на наш канал в Telegram (@hardwareluxxrussia).