> > > > Cerebras WSE: сотни ядер на кристалле размером с подложку

Cerebras WSE: сотни ядер на кристалле размером с подложку

Опубликовано:

cerebras-wseНа конференции Hotchips ранее компания Cerebras представила Wafer Scale Engine (WSE). Данная концепция представляет собой чип, для которого используется подложка целиком. То есть он производится как готовая структура на подложке. Так что перед нами уже не чип в полном понимании. Наши коллеги WikiChip представили новые подробности WSE. Также на конференции Supercomputing 19 наверняка будут объявлены интересные детали.

Сотрудничество с TSMC позволило создать чип, занимающий максимальный по размеру четырехугольник, выпиленный из 300-мм подложки. В результате получился чип 215 x 215 мм площадью 46.225 мм². На самом деле подобный квадрат нельзя вписать в подложку диаметром 300 мм, но Cerebras закруглила углы.

На чипе расположены 84 идентичных кристалла, 12 по горизонтали и 7 по вертикали. Площадь каждого составляет 507,9 мм². Таким образом, Cerebras обходит ограничения по максимальному размеру современных чипов. Современные машины EUV и маски позволяют выпускать кристаллы размером, максимум, 26 x 33 мм или 858 мм². Каждый кристалл содержит порядка 4.774 ядер ИИ. В результате с 84 кристаллами мы получаем более 400.000 вычислительных ядер искусственного интеллекта.

Данные показатели увеличились по сравнению с информацией, которую Cerebras показала на конференции Hotchips. WSE сравнивался с GV100 GPU от NVIDIA, который имеет площадь 815 мм² и содержи 5.120 потоковых процессоров и 640 ядер Tensor. Еще одно сравнение сделано по работе с памятью. К GV100 GPU подключены 32 Гбайт памяти HBM2 с пропускной способностью интерфейса 900 Гбайт/с. У WSE внешней памяти нет, используется 18 Гбайт SRAM. С ней ядра ИИ работают со скоростью 9 Пбайт/с, что намного превышает внешние подключения. Важную роль играет и интерконнект. С помощью NVLink, NVIDIA достигает 300 Гбит/с между GV100 GPU. В случае WSE интерконнект работает намного быстрее - 100 Пбит/с.

Корпусировка

Конечно, выпускать чипы размером с подложку весьма сложно из-за низкой доли выхода годных кристаллов. Чип производится на заводах TSMC по техпроцессу 16 нм (16FF+). Поэтому техпроцесс в данном случае максимально проработанный, с минимальным количеством ошибок. Но с таким размером кристалл без ошибок все равно не сделать. Поэтому Cerebras добавила от 1,0 до 1,5% дополнительных ядер ИИ. Подобный запас позволяет заменить сбойные ядра резервными.

Как именно и где расположены резервные ядра - большой секрет Cerebras. Если одно из ядер даст сбой, то интерконнект, который тоже имеет резервирование, будет переброшен на одно из резервных ядер.

Кроме производства проблемы возникают с подачей питания и охлаждением. Специальные слои между подложкой и PCB должны устранять проблемы с разными коэффициентами расширения.

На PCB присутствуют дорожки для подачи питания. Из-за размера чипа питание в данном случае - проблема серьезная. И вместо горизонтального подхода, дорожки прокладываются и в горизонтальной плоскости PCB. Все это учитывается в корпусировке. Мощность питания подобного чипа составляет несколько сотен ватт, если не больше киловатта.

То же самое касается охлаждения. Пока что производитель не раскрыл, каким образом выделяющееся тепло будет отводиться от WSE. Здесь, опять же, речь наверняка идет о нескольких сотен ватт, но и 1 кВт - вполне возможный уровень (поскольку вся потребляемая чипом энергия преобразуется в тепло). И этот уровень необходимо отводить. Cerebras наверняка будет использовать жидкостное охлаждение.

Новые подробности появятся скоро

На конференции Supercomputing 19 Cerebras планирует опубликовать новые подробности WSE. Один такой чип будет устанавливаться в стойку 15U. И данную систему можно сравнить с NVIDIA DGX-2, которая занимает 10U и содержит 16 Tesla V100. Из других компонентов можно отметить два Intel Xeon Platinum, 8x EDR IB/100 GbE, 1,5 TB памяти, 30 Тбайт NVMe SSD и блок питания на 10.000 Вт. Цена DGX-2 составляет $399.999 (25 млн. рублей).

Подробности остальной аппаратной обвязки WSE остаются неизвестны. Но мы надеемся получить новую информацию в рамках конференции Supercomputing 19.

Подписывайтесь на группы Hardwareluxx ВКонтакте и Facebook, а также на наш канал в Telegram (@hardwareluxxrussia).