Hardwareluxx > Новости > Железо > Процессоры > Второе поколение Wafer Scale Engine: 850.000 ядер на подложке

Второе поколение Wafer Scale Engine: 850.000 ядер на подложке

Опубликовано: 21.04.2021 в 13:35 Андрей Шиллинг

cerebras-wse На конференции 2021 Linley Spring Processor Conference компания Cerebras представила второе поколение своего "монстра" Wafer Scale Engine или WSE-2. Летом 2019 гигантский чип площадью 46.225 мм² для расчетов искусственного интеллекта привлек немало внимания, поскольку знаменовал новый подход не только по производству, но и по сфере использования. Второе поколение продолжает традиции оригинала.

Но из-за природы производства полупроводников есть свои ограничения. Круглая подложка диаметром 300 мм позволяет производить квадратный чип площадью не более 46.225 мм². И у второго поколения размеры не изменились. Но TSMC перешла с 16-нм техпроцесса на 7-нм. Таким образом, чип вмещает уже не "всего" 400.00 ядер ИИ, а более чем в два раза больше - 850.000. Число транзисторов увеличилось с 1.200 до 2.600 млрд. Емкость встроенной памяти увеличилась с 18 до 40 Гбайт. Пропускная способность составляет 20 Пбайт/с. Интерконнект, соединяющий все 850.000 ядер ИИ, имеет пропускную способность 220 Пбайт/с. В обоих случаях речь идет о более чем удвоении по сравнению с предшественником.

Ядра ИИ (Sparse Linear Algebra Compute Cores) SLAC тоже получили некоторые изменения микроархитектуры. Но Cerebras подробности не указывает. Но есть новая информация о конструкции. Чип состоит из 84 кристаллов, которые расположены на единой подложке, однако они работают в 84 независимых частотных доменах. Кроме того, 84 кристалла получают питание независимо друг от друга.

Сравнение поколений WSE
	WSE-1	WSE-2
Техпроцесс	16 нм	7 нм
Площадь кристалла	46.225 мм²	46.225 мм²
Число транзисторов	1.200 млрд.	2.600 млрд.
Ядра AI	400.000	850.000
SRAM	18 GB	40 GB
Пропускная способность памяти	9 PB/s	20 PB/s
Пропускная способность интерконнекта	100 PB/s	220 PB/s

Данные еще более впечатляют, если сравнить WSE-2 с другими чипами. Самым крупным GPU является NVIDIA A100 площадью 826 мм². NVIDIA упаковала на нем 54 млрд. транзисторов. По числу ядер определиться сложно, но NVIDIA установила 6.912 вычислительных блоков FP32, 3.456 блока FP64 и 432 ядра Tensor. Кэш L2 существенно меньше - 40 Мбайт. С памятью HBM2E GPU GA100 работает с пропускной способностью 2 Тбайт/с, а NVLink 3.0 дает 600 Гбайт/с между несколькими GA100 GPU. Но, как мы указали выше, данные цифры вряд ли стоит напрямую сравнивать.

Конечно, производство чипа подобных размеров приводит к вопросам по доле выхода годных кристаллов. Но Cerebras изобрела новый подход, который использовался с первым поколением. А именно Cerebras выделяет от 1,0% до 1,5% дополнительных ядер ИИ. И если при производстве возникает ошибка, то данный запас 1,0-1,5% позволяет заменить сбойные ядра. В случае WSE-2 подход такой же, разве что буфер увеличен до 1-2%. Если одно ядро выходит из строя, то интерконнект, который тоже имеет избыточность, будет переключен на резервное ядро вместо дефектного. Но Cerebras признала, что выход годных кристаллов по 7-нм техпроцессу существенно ниже, чем по 16-нм. Вероятно, по этой причине число резервных ядер было увеличено.

Мы уже обсуждали препятствия, которые могут возникнуть на пути использования данных систем. Питание, охлаждение, подключение к интерфейсам - все это требуется наладить, чтобы чип заработал вообще. Система CS-2 очень похожа на свою предшественницу. Энергопотребление составляет около 20 кВт, доступны быстрые сетевые подключения, а именно 12 портов 100 GbE. Охлаждение у чипа водяное.

Cerebras продолжает активно дорабатывать программное обеспечение, чтобы задействовать ядра Sparse Linear Algebra Compute (SLAC) в полной мере. Поддерживаются такие платформы машинного обучения, как TensorFlow и PyTorch. Уже доступен компилятор Cerebras Graph Compiler (CGC), который позволяет перевести пользовательские данные в сеть машинного обучения. Ядра такой системы должны быть загружены по максимум, здесь необходима не только очень высокая пропускная способность интерконнекта, но и оптимизация программного обеспечения. Все же 850.000 ядер должны своевременно получать данные, иначе потенциал производительности не будет раскрыт.

Cerebras планирует поставить первые системы CS-2 с чипами WSE-2 уже в третьем квартале. Цена CS-1 составляла более двух млн. долларов США. Система CS-2 обойдется в несколько миллионов долларов.

Подписывайтесь на группы Hardwareluxx ВКонтакте и Facebook, а также на наш канал в Telegram (@hardwareluxxrussia).