> > > > Cerebras CS-1: гигантский чип для вычислений ИИ в сервере 15U со сложным охлаждением

Cerebras CS-1: гигантский чип для вычислений ИИ в сервере 15U со сложным охлаждением

Опубликовано:

cerebras-wseЛетом компания Cerebras анонсировала гигантский чип размером с подложку, теперь представлена первая система, которая использует Wafer Scale Engine (WSE). 46.225 мм², 1,2 трлн. транзисторов, более 400.000 ядер ИИ и 18 Гбайт SRAM на одном чипе говорят сами за себя.

Система CS-1 имеет высоту 15U, занимая треть стандартной стойки дата-центра. Внешние подключения представлены 12x портами 100 Gigabit Ethernet (100GBase-SR4). Подобная система CS-1 содержит только один гигантский чип WSE. Вес системы весьма приличный - 254 кг.

Охлаждение WSE жидкостное. При этом контур располагается внутри корпуса сервера. Примерно одну восьмую объема занимают две помпы. Такое количество нужно для резервирования, во время работы насосы могут меняться. Пока неизвестно, на какой объем прокачиваемой жидкости рассчитаны помпы. Горячий хладагент поступает в крупный радиатор, расположенный в задней части системы. Спереди установлены четыре крупных вентилятора. Поддерживается "горячее" извлечение для очистки или замены вентиляторов. Но три вентилятора всегда должны оставаться в системе в рабочем состоянии. Один в таком случае можно заменить. Четыре вентилятора обеспечивают воздушный поток 0,95 м³/с.

Верхняя часть CS-1 используется для блоков питания, а также для подсоединения непосредственно WSE. Сверху можно видеть и 12 интерфейсов 100 Gigabit Ethernet. Подсистема питания представлена 6+6 БП с резервированием, которые тоже можно менять в "горячем" режиме. Энергопотребление системы составляет порядка 20 кВт.

Сервер NVIDIA DGX-2 занимает 10U, при этом 16 ускорителей Tesla V100 соединяются попарно друг с другом через NVLink. Подобная система потребляет 10 кВт, охлаждение тоже распложено внутри корпуса сервера без внешнего теплообменника. Поэтому отведение 10 или 13 кВт при высоте сервера 10U или даже 15U проблем не составляет. Но в случае CS-1 следует учитывать, что выделяемое тепло почти полностью связано с гигантским чипом WSE, то есть концентрировано в одной небольшой области.

Все самое интересное происходит в верхней задней области сервера, где находится Engine Block. Сюда подводится питание и контур с хладагентом. Более половины Engine Block занимает подсистема питания, которая распределяет питание на PCB для WSE. Она расположена в алюминиевом радиаторе, гигантском водоблоке, через который проходит охлаждающая жидкость. Шесть штуцеров с быстрым подключением соединяют водоблок с помпами (два штуцера на каждую) и с радиатором (два штуцера).

Система CS-1 сама по себе впечатляет - не только из-за гигантского встроенного чипа, но и по причине мощной системы охлаждения и питания. Подобная система обеспечивает очень высокий уровень производительности - пока теоретический. Кроме того, можно связать несколько систем CS-1 в один кластер. Интерфейсы для интерконнекта уже имеются.

Cerebras теперь занимается разработкой программного обеспечения, чтобы полностью нагрузить ядра Sparse Linear Algebra Compute (SLAC). Уже поддерживаются обвязки ML Framework в виде TensorFlow и PyTorch. Также готов и компилятор Cerebras Graph Compiler (CGC), который преобразует пользовательские данные для сети ML. Программное обеспечение должно обеспечить высокую загрузку имеющихся аппаратных ядер, а также пропускной способности интерконнекта, чтобы дать максимальную вычислительную производительность.

По вычислительной производительности система CS-1 обещает дать примерно такой же уровень расчетов ИИ (с точностью INT8 или меньшей), что и 1.000 ускорителей NVIDIA Tesla V100. По сравнению с TPU 2 Pod одна система дает примерно в три раза большую вычислительную производительность. Впрочем, все эти значения должны подтвердиться на практике. Одной из первых систему CS-1 для тестирования получит Аргоннская национальная лаборатория в США.

Цена CS-1 с чипом WSE неизвестна. За NVIDIA DGX-2 придется отдать $400.000. Первая информация о WSE появилась летом на конференции Hotchips. Несколько дней назад мы опубликовали подробности WSE, а также поговорили о проблемах, которые возникают при производстве столь большого кристалла.

Подписывайтесь на группы Hardwareluxx ВКонтакте и Facebook, а также на наш канал в Telegram (@hardwareluxxrussia).