Hardwareluxx > Новости > Общая информация > Технологии > GTC 2024: дополнительная информация о Blackwell, знакомство с GB200-NVL72

GTC 2024: дополнительная информация о Blackwell, знакомство с GB200-NVL72

Опубликовано: 21.03.2024 в 10:00 Андрей Шиллинг

hardwareluxx news new В рамках сессии вопросов и ответов с генеральным директором NVIDIA Дженсеном Хуаном (Jensen Huang) журналисты смогли задать ряд вопросов о новых анонсах NVIDIA или фундаментальных направлениях развития. Также состоялась еще одна сессия вопросов и ответов с разработчиком архитектуры GPU Джоной Албеном (Jonah Alben), так что у нас есть еще несколько подробностей об анонсированной архитектуре Blackwell и соответствующем GPU GB100.

Во-первых, архитектура Blackwell и GPU GB100 – это одна из самых крупных инвестиций, которые когда-либо делала NVIDIA. На их разработку было направлено $10 млрд. В то же время после выступления была названа предполагаемая цена ускорителя B100 - от $30.000 до $40.000. Дженсен Хуан не захотел подтвердить эту цифру – цен новых продуктов, которые должны появиться в продаже не раньше конца года, пока нет. Текущие ускорители H100/H200 уже находятся в этом ценовом диапазоне, однако ускоритель B100/B200 наверняка будет стоить гораздо дороже, поскольку NVIDIA использует два чипа одновременно. Grace Blackwell Superchip использует три чипа: два GB100 GPU плюс один Grace CPU.

Дженсен также отметил, что NVIDIA не продает отдельные GPU, а продает системы. Поэтому пока неизвестно, будут ли отдельные ускорители B100 доступны для покупки, или же они всегда будут интегрированы в системы DGX или GB200-NVL72.

С вопросом цены в некоторой степени связан и путь модернизации, который можно пройти с ускорителями B100. Системы DGX-H100 также могут быть оснащены новыми ускорителями B100. Здесь имеет место так называемая in-drop совместимость. Однако ускорители B200 больше не будут совместимы, отчасти потому, что их TDP составляет 1.000 Вт.

По словам NVIDIA, архитектура Blackwell представляет собой сдвиг в сторону инференса, что связано со все более широким применением моделей GenAI. Тренировка здесь отходит на второй план. Конечно, модели нужно будет тренировать снова и снова, но поскольку все больше и больше дорогих ресурсов приходится тратить на сложный инференс, имеет смысл сосредоточиться на этой области применения.

Постоянно растущая потребность в инференсе объясняется, с одной стороны, тем, что все больше пользователей обращаются к генеративному ИИ в его различных формах, а с другой – тем, что модели всегда используются с токенами на запрос, что увеличивает вычислительные усилия инференса.

Blackwell не так быстр по вычислениям FP64

NVIDIA упоминает о вычислительной производительности GPU Blackwell при использовании ядер Tensor, но умалчивает о существующих потоковых процессорах (ядрах CUDA) и их вычислительной производительности. Однако из технических данных, которые NVIDIA официально предоставляет для ядер Tensor, становится ясно, что по удвоенной точности (FP64) сделан шаг назад. Ускоритель H100 достигает вычислительной производительности 67 TFLOPs благодаря ядрам Tensor, в то время как ускорители B100 и B200 теперь показывают 30 и 40 TFLOPS соответственно.

За исключением INT8, Blackwell поддерживает на ядрах CUDA все форматы данных, которые уже поддерживаются Hopper. Однако NVIDIA больше не считает FP64 столь важным при выборе критериев и требований к точности GPU. Многие приложения, которые ранее полагались на FP64, будут работать так же хорошо и даже быстрее при использовании FP32 вместо FP64. По мнению NVIDIA, использование смешанной точности выгодно во многих областях. Если снизить требования к точности с FP64 до FP32, вычислительная производительность теоретически удваивается. Конечно, при этом необходимо обеспечить корректность обрабатываемых данных, даже если точность была снижена.

Но, как мы отметили, подробности еще неизвестны, поскольку NVIDIA не предоставляет никаких дополнительных сведений об архитектуре и векторной вычислительной производительности ядер CUDA. Компания также не захотела сообщать никаких подробностей о базовой структуре ускорителя.

Знакомство с GB200 NVL72

У нас также была возможность поближе рассмотреть GB200 NVL72. GB200 NVL72 – это полноценная стойка, предназначенная для тренировки и инференса LLM. NVIDIA хочет продавать GB200 NVL72 как единую систему, но в разных стадиях расширения и с разным количеством стоек.

Стойка состоит из 18 вычислительных узлов, каждый содержит два чипа Grace Superchip, к каждому из которых подключено два GPU GB100. Таким образом, в одной стойке используется в общей сложности 36 чипов Grace Superchip и 72 GPU Blackwell. Общий объем доступной памяти для ускорителей составляет 13,5 ТБ HBM3e с общей пропускной способностью 576 ТБ/с. Вычислительную производительность обеспечивают 2.592 ARM-ядра в Grace Superchip. К ним подключены 17 ТБ оперативной памяти LPDDR5X со скоростью 18,4 ТБ/с.

Вся стойка рассчитана на энергопотребление 120 кВт. Все узлы имеют водяное охлаждение. Поэтому центр обработки данных должен быть спроектирован с учетом энергопотребления и требований к охлаждению. NVIDIA сотрудничает с разными операторами дата-центров и помогает им подготовить инфраструктуру.

Если посмотреть на стойку спереди, то десять вычислительных узлов с ускорителями GB200 расположены сверху, а восемь - снизу. Девять коммутаторов NVLink, которые соединяют 72 GPU Blackwell, расположены в центре. Все узлы заключены в золотистую рамку. Ниже и выше них расположены несколько блоков питания и коммутаторы для соединений InfiniBand и Ethernet.

Сзади сквозь сетчатые решетки видны оптоволоконные кабели. «Спинной мозг» стойки расположен по центру, а именно узкий вертикальный канал, по которому проходят медные кабели для соединений NVLink. NVIDIA спроектировала блоки SerDes (сериализаторы/десериализаторы) нового коммутатора NVLink таким образом, чтобы они могли напрямую связываться с SerDes ускорителей через медные кабели.

Для предыдущих коммутаторов NVLink максимальное количество прямых соединений составляло 256; новый коммутатор может подключить до 576 GPU Blackwell и, соответственно, 288 GB200. Каждый чип Blackwell подключается со скоростью 1,8 ТБ/с.

NVIDIA не называет цену стойки с GB200 NVL72. Однако, скорее всего, речь идет о нескольких миллионах долларов США. В составе DGX GB200 SuperPod будут восемь или больше таких стоек.

Подписывайтесь на группу Hardwareluxx ВКонтакте и на наш канал в Telegram (@hardwareluxxrussia).