Hardwareluxx > Новости > Железо > Видеокарты > MLPerf Inference 3.1: Grace Hopper на 17% быстрее H100

MLPerf Inference 3.1: Grace Hopper на 17% быстрее H100

Опубликовано: 11.09.2023 в 20:03 Андрей Шиллинг

hardwareluxx news new MLCommons сегодня опубликовала результаты теста инференса MLPerf 3.1 Inference. Особых сюрпризов нет, но «железо» весьма разнообразное: Intel, AMD, NVIDIA, Qualcomm и Google. Напомним, что даже при одинаковом «железе» очень важна оптимизация программного обеспечения.

Впервые в результатах появился Grace Hopper. Система Grace Hopper (GH200) состоит из Hopper GPU в той же конфигурации, что в ускорителе H100, и Grace CPU. Поскольку GPU идентичен, GH200 должен давать такую же производительность GPU, что и H100, но на самом деле отличия есть.

Grace Hopper работает до 17% быстрее ускорителя H100. NVIDIA в качестве причины указывает, что GH200 выигрывает от большего объема и пропускной способности памяти.

Сравнение GH200 и H100
	GH200	GH200 (2024)	H100 SXM
Производительность FP64 (GPU)	34 TFLOPS	34 TFLOPS	34 TFLOPS
Производительность FP32 (GPU)	67 TFLOPS	67 TFLOPS	67 TFLOPS
Производительность FP8 (GPU)	3,958 TFLOPS	3,958 TFLOPS	3,958 TFLOPS
Производительность INT8 (GPU)	3,958 TOPS	3,958 TOPS	3,958 TOPS
Память	96 GB (HBM 3)	144 GB (HBM3E)	80 GB (HBM2E)
Пропускная способность памяти	4 Тбайт/с	4,9 Тбайт/с	3,35 Тбайт/с
TDP	от 450 до 1.000 Вт	от 450 до 1.000 Вт	до 700 Вт

H100 в версии SXM и GH200 в нынешней версии отличаются конфигурацией памяти (80 Гбайт против 96 Гбайт) и пропускной способностью памяти (3,35 против 4 Тбайт/с). Также сказывается и TDP. NVIDIA указывает, что ускоритель H100 в версии SXM может потреблять до 700 Вт. GH200 можно настраивать между 450 и 1.000 Вт. В тестах использовалась самая мощная конфигурация на 1.000 Вт, что заставляет взглянуть на прирост 17% под другим светом.

Конечно, GH200 содержит еще и CPU, доступный TDP 1.000 Вт динамически разделяется между Hopper GPU и Grace CPU. Поэтому в случае 700 Вт для ускорителя H100 следует учитывать и энергопотребление host CPU. Но даже с учетом этого результаты не выглядят впечатляюще.

NVIDIA указывает, что для ускорителей можно выбирать разные профили TDP. И помимо полного TDP можно выставить профиль Max-Q, когда ускоритель будет работать более эффективно. Но для сравнения производительности использовались самые мощные конфигурации.

Мы также добавили в таблице GH200 с конфигурацией памяти, которая будет доступна в следующем году. Емкость увеличится до 144 Гбайт, а пропускная способность благодаря переходу на HBM3E возрастет до 4,9 Тбайт/с. Поэтому можно ожидать существенного прироста производительности приложений сферы ИИ и HPC.

Обновление: уровни энергопотребления

NVIDIA более детально рассказала об энергопотреблении системы. Как упоминалось выше, для GH200 выставлен уровень 1.000 Вт. Сюда входят GPU, CPU и память. Но при типичной полной нагрузке модуль GH200 потребляет между 750 и 800 Вт.

Для системы с ускорителем H100 следует учитывать host CPU и память. NVIDIA предполагает 700 Вт (H100), 350 Вт (CPU) и 100 Вт (память), что в сумме дает 1.150 Вт.

MLPerf 3.1 Inference: новая модель LLM и тест системы хранения

В пакете MLPerf Inference 3.1 немного изменился набор бенчмарков. Бенчмарк большой языковой модели LLM (Large Language Model) теперь использует GPT-J с 6 млрд. параметров, а в качестве текстовой библиотеки взята CNN DailyMail News.

Результаты бенчмарков дата-центров по разным аппаратным компонентам не стали существенно лучше (частично по причине того, что нового «железа» почти нет), но есть улучшения по энергопотреблению и эффективности. В частности, лучше стали результаты edge inferencing, то есть вне пределов дата-центров.

MLPerf Storage v0.5

Новый бенчмарк MLPerf Storage v0.5 позволяет оценивать производительность системы хранения данных. Производительность ускорителей продолжает увеличиваться, им требуются все большие объемы данных, что может стать «узким местом».

Именно здесь поможет бенчмарк MLPerf Storage. Но пока получены лишь предварительные результаты, на что указывает версия бенчмарка. В финальной версии наверняка будут добавлены различные оптимизации.

Подписывайтесь на группу Hardwareluxx ВКонтакте и на наш канал в Telegram (@hardwareluxxrussia).