Hardwareluxx > Новости > Софт > Тесты > Бенчмарки MLPerf: NVIDIA с более чем 10.000 GPU, Google TPU-v5e и Intel Gaudi2 с хорошими результатами

Бенчмарки MLPerf: NVIDIA с более чем 10.000 GPU, Google TPU-v5e и Intel Gaudi2 с хорошими результатами

Опубликовано: 09.11.2023 в 12:35 Андрей Шиллинг

hardwareluxx news new MLCommons представила очередную порцию бенчмарков в области тренировки сетей ИИ в ЦОД и HPC. Результаты тренировки интересны тем, что некоторые аппаратные ускорители появились впервые, либо впервые было показано масштабирование с помощью значительно большего числа ускорителей, чем ранее.

NVIDIA и Azure представили результаты с 1.344 узлами. В облачных инстанциях Azure использует два Intel Xeon Platinum 8480C с 56 ядрами каждый и восемь ускорителей H100 на узел. Таким образом, всего здесь используется 10.752 ускорителя H100. Максимальная стадия расширения суперкомпьютера EOS от NVIDIA имеет такое же количество ускорителей H100, но используются другие хост-процессоры с 32 ядрами Xeon Platinum 8462Y. В суперкомпьютере работают 1.344 узла и, соответственно, 10.752 ускорителя H100 в сумме. То есть NVIDIA и Azure могут масштабировать свои системы почти в три раза больше, чем раньше.

В таких огромных системах на первый план выходит сеть и межсоединения. NVIDIA указывает, что в EOS используется топология Fat Tree. Она в определенной степени упрощает сеть, поскольку в древовидную структуру соединены несколько уровней. Однако нижние уровни напрямую друг с другом не связаны.

При использовании 10.752 ускорителей H100 NVIDIA достигает положительного прироста производительности, который соответствует ожидаемому масштабированию. В три раза большее количество ускорителей обеспечивает в три раза большую производительность, а время, необходимое для тренировки больших сетей искусственного интеллекта, сокращается на две трети. Таким образом, масштабирование систем NVIDIA в несколько раз позволяет значительно сократить время тренировки.

Google также впервые представила результаты работы TPU-v5e. Здесь использовался кластер, состоящий из 4.096 TPU. Также впервые представлены результаты NVIDIA L40S.

Результаты Google столь хороши еще и по причине дальнейшей оптимизации программного обеспечения. Что наверняка отразилось и на результатах NVIDIA, поскольку компания постоянно оптимизирует свое ПО. Теперь в семи из восьми (градиентных) слоев тренировки Google использует формат INT8, а не BFloat16, как раньше. Уменьшение сложности формата данных повышает пропускную способность.

Аналогичная мера была предпринята и Intel. Ускорители Gaudi2 теперь работают с использованием FP8, и по сравнению с предыдущими результатами Intel выполняет бенчмарки в два раза быстрее. Что также приближает компанию ее к конкуренту NVIDIA, хотя гигант ИИ все еще имеет огромный отрыв. Однако соотношение цена/производительность постепенно меняется в пользу Intel.

NVIDIA была и остается эталоном для многих сценариев в центрах обработки данных. Но, как всегда, нужно внимательно изучать каждый бенчмарк, многое зависит от сферы применения. Приложения искусственного интеллекта, безусловно, являются основной сферой деятельности NVIDIA, которая выкупает огромные мощности TSMC для производства чипов и корпусировки. Хотя из-за высокого спроса цены остаются высокими. Именно здесь в игру вступает Intel, предлагая выгодную альтернативу со своими ускорителями Gaudi2.

Подписывайтесь на группу Hardwareluxx ВКонтакте и на наш канал в Telegram (@hardwareluxxrussia).