Grace: NVIDIA комбинирует процессор ARM, GPU и быстрый интерконнект

nvidia-grace На GPU Technology Conference NVIDIA представила Grace, первый процессор ARM для высокопроизводительных вычислений HPC. Его планируется использовать и в будущих суперкомпьютерах. Название было выбрано не случайно, Грейс Хоппер была ученым и пионером в сфере информационных технологий. Она развила концепцию машинно-независимых языков программирования, что привело к созданию COBOL, одного из первых высокоуровневых языков программирования.

Процессор Grace использует дизайн Neoverse, который разрабатывался несколько лет - если верить NVIDIA. Процессор будет работать вместе с GPU, таким как GA100. Все компоненты соединены быстрым интерконнектом, поскольку NVIDIA считает ограничивающим фактором пропускную способность разных уровней памяти. Grace будет использоваться в разных системах с 2023 года.

NVIDIA не предоставила технических подробностей процессора (число ядер, использование дизайна Neoverse V1 или N2, TDP, тактовые частоты и т.д.) и парного GPU. На рендере можно видеть GA100 GPU на архитектуре Ampere с шестью чипами памяти HBM2. NVIDIA упоминает ускоритель A100 GPU, так что вполне возможно, что именно он и будет использоваться вместе с Grace.

Подписывайтесь на группы Hardwareluxx ВКонтакте и Facebook, а также на наш канал в Telegram (@hardwareluxxrussia).

Производительность составляет более 300 баллов в SPECrate2017_int_base, так что дизайн Grace соответствует двум Graviton2 CPU с 64 ядрами каждый.

Но вернемся к интерфейсам. GA100 GPU работает с памятью HBM2 на 1,5 Тбайт/с. Между тем собственный интерконнект NVIDIA NVLink 3.0 обеспечивает 600 Гбайт/с между GPU. Современные процессоры x86 используют память DDR4, которая по восьми каналам дает всего 190 Гбайт/с. GPU подключается к процессору через интерфейс PCI Express 4.0, который в случае 16 линий дает 32 Гбайт/с. При переходе на PCI Express 5.0 пропускную способность получится увеличить до 64 Гбайт/с. Но по данным числам видно, что GPU соединяются друг с другом и со своей памятью очень быстро, но соединение между GPU и процессором является "узким местом", то же самое касается и памяти процессора. Поэтому сегодня имеет смысл рассматривать массив памяти когерентным только между GPU. Если же добавляется оперативная память CPU, то интерфейс PCI Express становится "узким местом".

NVIDIA планирует решить данную проблему с Grace. Как и в случае процессоров IBM, NVIDIA планирует подключать процессор Grace к GPU через NVLink. Будет использоваться NVLink 4.0, который в два раза быстрее предшественника. NVIDIA говорит о двунаправленной пропускной способности более 900 Гбайт/с. Процессоры Grace соединяются друг с другом с пропускной способностью более 600 Гбайт/с. Что устраняет нынешнее "узкое место", связанное с шиной PCI Express.

У процессоров Grace будет собственная память. А именно LPDDR5, которая должна обеспечить более 500 Гбайт/с с более высокой эффективностью. Уровень более 500 Гбайт/с позволяет NVIDIA объявить о более чем удвоении по сравнению с нынешними 200 Гбайт/с.

В случае DGX A100 с восемью ускорителями A100 GPU NVIDIA указывает суммарную пропускную способность NVLink 4,8 Тбайт/с. С процессорами Grace она составит 8 Тбайт/с. Также NVIDIA указывает на более высокую пропускную способность памяти. Она увеличится с нынешних 1,5 Тбайт/с до 2 Тбайт/с. Вероятно, будет активирован шестой чип памяти HBM2, поэтому и пропускная способность памяти увеличится.

Почему пропускная способность памяти так важна? Модели, которые рассчитываются на подобных системах, становятся все крупнее. Из нескольких сотен миллионов параметров модели теперь перешли на уровень в несколько миллиардов параметров, а в будущем можно ожидать уровень нескольких триллионов. Подобные объемы данных должны передаваться по системе как можно более эффективно, а также храниться как можно ближе к вычислительным блокам системы. И здесь интерконнект играет очень важную роль.

Конечно, из изображений рендеринга не следует делать слишком много выводов, но все же использовать данный источник вполне разумно. Если верить примечаниям NVIDIA, ускоритель A100 GPU использовался вместе с процессором ARM. Процессор оснащается 84 или 76 ядрами, которые опираются на дизайн Neoverse. Ниже и выше можно видеть четыре чипа памяти LPDDR5.

Начиная с третьего квартала 2021, NVIDIA планирует поставлять первые комплекты разработчика на новых компонентах. Они будут опираться на процессор Altra от компании Ampere с 80 ядрами. Также они будут оснащаться двумя NVIDIA A100 и двумя Bluefield-2 DPU.

Первые суперкомпьютеры Grace в Швейцарии и США

Первые суперкомпьютеры на процессорах Grace вместе с соответствующими GPU будут построены в Swiss National Computing Centre (CSCS) - суперкомпьютер ALPS, а также в Лос-Аламосской национальной лаборатории (США). Причем ALPS должен в 7 или более раз превзойти производительность расчетов с искусственным интеллектом по сравнению с Selene. Напомним, что Selene - это суперкомпьютер с производительностью в сценариях ИИ 2,795 PetaFLOPS HPC и 2,8 ExaFLOPS.

ALPS должен быть построен к 2023 году, NVIDIA планирует выход Grace как раз в 2023 году. Будем надеяться, что подробности Grace появятся в ближайшие месяцы.