Hardwareluxx > Новости > Железо > Процессоры > Grace Hopper и Grace Blackwell: совместная работа CPU и GPU повышает производительность

Grace Hopper и Grace Blackwell: совместная работа CPU и GPU повышает производительность

Опубликовано: 21.03.2024 в 12:15 Андрей Шиллинг

hardwareluxx news new NVIDIA представила Grace Hopper Superchip на GTC22, но уже в этом году будут введены в эксплуатацию первые суперкомпьютеры с ускорителями GH200. В Grace Hopper Superchip ARM-процессор Grace с 72 ядрами и 480 ГБ LPDDR5X и GPU Hopper с 96 или 141 ГБ HBM3(E) работают вместе на одном модуле.

Первой крупной системой с GH200 станет анонсированный ранее модуль ускорения для первого европейского экзафлопсного суперкомпьютера JUPITER (Joint Undertaking Pioneer for Innovative and Transformative Exascale Research). Здесь будут использоваться ускорители GH200 с 96 ГБ HBM3. Всего будет установлено почти 24.000 GH200. На этапе ввода системы в эксплуатацию многочисленные ученые уже тестируют свои проекты на новом оборудовании. Презентация на GTC24 дала представление об этой работе и о том, как можно максимально эффективно использовать Grace Hopper.

CPU Grace в первую очередь отвечает за выполнение ряда важных задач по управлению. К ним относится передача данных по сети. Хотя в общей сложности 32 GPU Hopper могут связываться друг с другом через сеть NVLink, кластер продолжает обмениваться данными через PCIe со скоростью 512 ГБ/с, либо через подключенные к нему интерфейсы InfiniBand или Ethernet.

При этом большая часть научных вычислений происходит на GPU. В зависимости от объема данных пропускная способность может стать ограничивающим фактором. Как только данные оказываются на Grace Hopper Superchip, для их хранения доступно 480 ГБ LPDDR5X, которые подключаются со скоростью 500 ГБ/с. В зависимости от варианта GPU, есть также 96 или 144 ГБ HBM3E, которые подключаются со скоростью 4 или 4,9 ТБ/с. Максимальный пул памяти в 624 ГБ доступен как для CPU, так и для GPU. Данные из памяти CPU могут быть запрошены GPU и наоборот.

Связь между CPU и GPU осуществляется через интерфейс C2C со скоростью 900 ГБ/с. Эти 900 ГБ/с могут стать ограничивающим фактором: все же скорость работы с памятью до 4,9 ТБ/с у GPU существенно выше. Поэтому данные, обрабатываемые GPU, должны находиться в памяти GPU. Здесь NVIDIA предлагает процесс миграции, который автоматически перемещает данные, необходимые GPU.

Effiziente Nutzung des GH200-Beschleunigers

NVIDIA привела пример приложения NEMO. Его запуск на GPU дает ускорение в 33%. Однако в первом примере данные по-прежнему хранятся в памяти CPU. После автоматической миграции вычисления ускоряются еще на 44 %. При этом GPU нагружается более эффективно.

Конечно, удвоение производительности не является примером увеличения производительности приложения за счет запуска его на GPU. Целью было показать влияние переноса данных на GPU.

Однако процессор не обязательно должен брать на себя только задачи управления. В составе Grace Grace Superchip он также может использоваться в качестве ускорителя. Поэтому при наличии системы GH200 важно выяснить, как лучше использовать процессор Grace. NVIDIA работает с операторами и пользователями систем GH200, чтобы обеспечить их максимально эффективную нагрузку.

Подписывайтесь на группу Hardwareluxx ВКонтакте и на наш канал в Telegram (@hardwareluxxrussia).