> > > > Habana Labs Gaudi с сетевым подключением 1 Тбит/с

Habana Labs Gaudi с сетевым подключением 1 Тбит/с

Опубликовано:

habana-labsДо начала года Intel опиралась на две стратегии разработки ускорителей инференса и тренировки сетей глубокого обучения. Но чиповый гигант поставил крест на ускорителях Nervana, сделав ставку на Habana Labs. Так что в ближайшие годы нас ждут ускорители ИИ, разработанные в Habana Labs.

Мы уже рассказывали о чипе Goya для ускорения инференса и Gaudi для тренировки сетей глубокого обучения. Между тем чипы Goya уже поставляются, а для Gaudi Habana Labs все еще говорит о пробных образцах. Производство обоих чипов выполняется на TSMC по 16-нм техпроцессу. Будущие продукты пока не называются.

На видеоролике от декабря 2019 года Эран Даган (Eran Dagan), отвечающий за продуктовый маркетинг в Habana Labs, рассказал о масштабировании чипа Gaudi, которое опирается на сетевые подключения. Но сначала позвольте поделиться базовой информацией о чипах:

Gaudi и Goya опираются на специальные ядра Tensor Processing Cores (TPCs), которые могут выполнять векторные или матричные вычисления, подобные ядрам NVIDIA Tensor Cores, в том числе с меньшей точностью (INT4 и INT8), а также с меньшей сложностью (Bfloat16).

В случае Gaudi интегрированы 32 Гбайт скоростной памяти HBM2. Goya работает с памятью DDR4 по 128-битному интерфейсу. В чип Gaudi встроены контроллеры 100 GbE с поддержкой RDMA over Converged Ethernet (ROCE). Что позволяет интегрировать чипы в интерконнект дата-центров через Mellanox NIC, обеспечивая масштабирование на несколько тысяч узлов.

Сетевые подключения в подробностях

Чип Gaudi будет поставляться в двух разных вариантах. А именно HL-205 Mezzaine Card (схожа с модулем NVIDIA SMX2), которая может работать с тепловым пакетом до 300 Вт и предлагает 10x 100 Gbps или 20x 50 Gbps сетевых интерконнектов. В сумме мы получаем сетевую пропускную способность около 1Tbps.

Вторая карта HL-200/202 PCI Express урезана чуть сильнее - до 8x 100 Gbps или 16x 50 Gbps сетевых интерконнектов, в сумме 800 Gbps. Что можно назвать приличной пропускной способностью для чипа ИИ. У Tesla V100 GPU нет прямых сетевых интерфейсов, GPU-ускорители подключаются к остальной системе через PCI Express или NVLink. В случае NVIDIA интерконнект внутри узла реализован через NVLink, но также используются сетевые адаптеры Mellanox. Поэтому NVIDIA совершенно не случайно купила Mellanox. Habana Labs избежала подобной сложности и узких мест, выбрав прямую интеграцию.

Habana Labs System-1 (HLS-1) показывает, как подобные сетевое подключения могут использоваться. HLS-1 состоит из восьми модулей HL-205 OAM и двух коммутаторов PCI Express.

В системе HLS-1 все восемь модулей Gaudi напрямую подключены друг к другу. Для этой цели Habana Labs использует маршрутизацию All-to-All Direct Routing на уровне PCB. Так что все восемь модулей Gaudi подключены друг к другу напрямую через 100GbE. Оставшиеся три порта на модуль Gaudi выведены в качестве портов Ethernet для внешних подключений.

Данное решение - простая топология для одиночной системы. Если же требуется использовать несколько HLS-1, то Habana Labs предлагает другое решение. А именно системы Gaudi с коммутатором Ethernet. В таком случае на коммутатор от каждого модуля подаются 7x 100GbE. Коммутатор поддерживает 64x порта 100GbE. Соответственно, для внешних подключений доступны 8x 100GbE.

В топологии Hyper Cube Mesh вновь обеспечивается прямое соединение модулей Gaudi, но в урезанном виде. Скоростное подключение между системами HLS-1 не менее важно, чем внутренний интерконнект. Именно по этой причине Habana Labs разработала Mesh-топологию с гибридным подходом.

Чем больше систем HLS-1 планируется объединять, тем сложнее становится сетевая инфраструктура. Системы HLS-1 подключаются с пропускной способностью 1,6 Тбит/с - та же DGX-2 от NVIDIA работает с пропускной способностью в два раза меньше. Высокая пропускная способность обеспечивает соответствующий прирост производительности тренировки сети глубокого обучения по сравнению с конкурентами. По эффективности Habana Labs планирует достичь двукратного преимущества.

Сетевая инфраструктура очень важна, но программное обеспечение тоже играет существенную роль. Habana Labs использует сетевой протокол RDMA over Converged Ethernet (RoCE). Он позволяет передавать транспортные пакеты InfiniBand через Ethernet. Протокол RoCE v2 будет улучшен по разным параметрам, особенно по задержкам. Что весьма важно для таких инфраструктурных проектов, как системы HLS-1.

Пока неизвестно, когда именно чипы Gaudi и соответствующие системы выйдут из состояния образцов. И Habana Labs начнет поставлять чипы клиентам. Но Intel позитивно оценивает наработки Habana Labs, так что мы наверняка услышим хорошие новости о чипах Goya и Gaudi в ближайшем будущем.

Подписывайтесь на группы Hardwareluxx ВКонтакте и Facebook, а также на наш канал в Telegram (@hardwareluxxrussia).