Facebook построила самый быстрый суперкомпьютер для расчетов искусственного интеллекта: до 16.000 GPU A100

Опубликовано:

meta-facebookMeta построила новый суперкомпьютер AI Research SuperCluster (RSC), который был официально анонсирован. Кластер состоит из 760 серверов DGX-A100, в каждом работают восемь GPU-ускорителей A100. На каждый сервер DGX-A100 приходится по процессору EPYC. Таким образом, в суперкомпьютере насчитывается 6.080 A100 GPU. Meta заявляет вычислительную производительность 1,895 ExaFLOPS для вычислений с одинарной точностью (FP32).

Строительство RSC началось в 2020 году, кластер планируется расширить уже в этом году. Meta добавит еще 1.240 серверов DGX-A100, то есть число GPU A100 достигнет 16.000. Вычислительная производительность составил 5 ExaFLOPS.

Интересна не только вычислительная производительность A100 GPU, но и инфраструктура. GPU подключены напрямую друг к другу интерконнектом InfiniBand с пропускной способностью до 200 Гбит/с. Здесь за компоненты отвечает Mellanox, ранее приобретенная NVIDIA. Система кэширования Altus от Pengiun Computing имеет емкость 46 Пбайт. Подсистема хранения Pure Storage может вместить 175 Пбайт данных. Чтобы вычислительные кластеры выдавали максимальную производительность, очень важна быстрая передача данных на вычислительные блоки.

Новый суперкомпьютер RSC в 20 раза быстрее ранее использовавшегося кластера на NVIDIA V100 GPU. Facebook, вернее, Meta будет использовать новый кластер для тренировки массивных нейросетей. По информации компании, они будут учитывать до миллиарда параметров, а массив данных может достигать 1 EB (экзабайт). NVIDIA уже демонстрировала нейросети подобного масштаба на своем суперкомпьютере Selene.

Meta планирует использовать нейросети для разных сценариев. Например, для перевода постов с одного языка на другой. Но также и для интеллектуальной подборки ленты новостей в Facebook или Instagram, которую можно не просто сортировать по дате, а учитывать другие критерии.

Для постройки RSC Meta почти полностью использовала собственные компоненты. Здесь видны результаты десятилетней работы над спецификациями аппаратных компонентов в рамках Open Compute Project (OCP). Заметно и преимущество, о котором NVIDIA многие годы говорит: системы DGX получается масштабировать практически бесконечно, они позволяют легко и просто построить суперкомпьютер. Кроме того, Mellanox, которая теперь принадлежит NVIDIA, довольно давно сотрудничает Pure Storage, результаты здесь тоже видны.

Подписывайтесь на группы Hardwareluxx ВКонтакте и Facebook, а также на наш канал в Telegram (@hardwareluxxrussia).