MLPerf HPC: тесты HPC ставят под сомнение рейтинг суперкомпьютеров Top500

mlperf На этой неделе проходит конференция Supercomputing 2021, на ней был представлен и обновленный список суперкомпьютеров Top500. Оценка производительности выполняется с помощью теста Linpack, который учитывает только вычисления FP64. Конечно, они остаются важной мерой вычислительной производительности суперкомпьютеров во многих сценариях.

С шестимесячным циклом MLCommons публикует результаты HPC версии 1.0. В случае HPC результаты вносят не производители (NVIDIA можно назвать исключением), а операторы суперкомпьютеров. Среди них Аргоннская национальная лаборатория (США), Швейцарский национальный суперкомпьютерный центр (CSCS) с системой Piz Daint, Юлихский исследовательский центр с суперкомпьютером JUWELS, Департамент энергетики США с Perlmutter, Национальный центр суперкомпьютерных приложений с HAL, Техасский суперкомпьютерный центр с Frontera. Также напомним, что самым быстрым суперкомпьютером остается RIKEN Fugaku из Японии, оператор внес результаты и для него. Наконец, NVIDIA, производитель ускорителей для суперкомпьютеров, добавила свою систему Selene.

Участники тестирования имеют возможность проверить результаты других систем. Конечно, разработчик тестов MLCommons тоже выполняет аудит. Тесты искусственного интеллекта и машинного обучения не такие простые, как запуск 3DMark, например. Для проведения серверных тестов нам уже приходится выполнять немало дополнительной работы. А тесты HPC еще сложнее. Поэтому они разбиты их на две категории по сильному и слабому масштабированию "Strong Scaling" и "Weak Scaling". В случае "Strong Scaling" в центре внимание масштабирование результатов, насколько хорошо они увеличиваются, если удвоить число процессоров/GPU-ускорителей. В случае "Weak Scaling" цель в том, чтобы показать, насколько успешно суперкомпьютеры решают те или иные задачи. Все же нагрузить несколько тысяч вычислительных узлов, GPU-ускорителей и миллионы вычислительных ядер - задача не такая простая.

Для хороших результатов требуется сочетание мощных аппаратных компонентов и оптимизированного программного обеспечения. Системы с удвоенным числом процессоров/GPU-ускорителей далеко не всегда показывают удвоение результатов. Кроме того, другие оценки, помимо теста Linpack, позволяют разделить системы на разные категории. Fugaku потребовалось 114 минуты на выполнение теста CosmoFlow на 512 процессорах Fujitsu. Суперкомпьютеру JUWELS с 512 процессорами EPYC и 1.024 ускорителями NVIDIA A100 потребовалось всего 16 минут.

Результаты "Weak Scaling" впечатляют. Здесь ресурсы Fugaku, JUWELS, Perlmutter и Selene полностью задействованы. И между двумя используемыми тестами (CosmoFlow и DeepCAM) прослеживаются существенные отличия. Суперкомпьютер Fugaku явно выходит вперед в тесте CosmoFlow, вычисляя в два раза больше моделей в минуту, однако NVIDIA демонстрирует весьма сильные результаты DeepCAM благодаря оптимизации Selene.

Тесты Weak Scaling
	CPUs/GPUs	CosmoFlow (модели/минуты)
Fugaku	82.944x Fujitsu A64FX	1,29
Perlmutter	1.280x AMD EPYC 7742 5.120x NVIDIA A100	0,68
Selene	1.024x AMD EPYC 7742 4.096x NVIDIA A100	0,73

Приведенные результаты наглядно показывают, что по одному лишь показателю/тесту суперкомпьютеры оценивать не стоит.

Тесты Strong Scaling
	CPUs/GPUs	CosmoFlow (минуты)	DeepCAM (минуты)	OpenCatalyst (минуты)
NVIDIA Selene	32x AMD EPYC 7742 128x NVIDIA A100	8,04
	128x AMD EPYC 7742 512x NVIDIA A100		2,65
	256x AMD EPYC 7742 1.024x NVIDIA A100	25,78
	512 AMD EPYC 7742 2.048x NVIDIA A100		1,67
Fugaku	512x Fujitsu A64FX	114,35
Frontera	64x IBM Power9 128 NVIDIA V100	140,45
Theta	32x AMD EPYC 7742 128x NVIDIA A100			256,27
Piz Diant	32x AMD EPYC 7742 64x NVIDIA A100			753,11
HAL	64x IBM Power9 128 NVIDIA V100			1021,8
Perlmutter	128x AMD EPYC 7742 512x NVIDIA A100			111,86

Чем меньше времени требуется, чем быстрее система. Тем лучше могут совместно работать программное и аппаратное обеспечение. Полные результаты MLPerf 1.0 можно посмотреть здесь.

Конечно, список Top500 важен для сравнительной оценки производительности суперкомпьютеров, но следует учитывать и другие бенчмарки. В том числе и MLPerf, который следует рассматривать вместе с тестами Linpack и HPCG.

Подписывайтесь на группы Hardwareluxx ВКонтакте и Facebook, а также на наш канал в Telegram (@hardwareluxxrussia).