> > > > Graphcore IPU становится быстрее и эффективнее благодаря 3D Wafer on Wafer

Graphcore IPU становится быстрее и эффективнее благодаря 3D Wafer on Wafer

Опубликовано:

graphcore-bow-ipuДва года назад лондонский стартап Graphcore представил Mk2 GC200 Intelligence Processing Unit (IPU). На площади 823 мм² содержалось 59,4 млрд. транзисторов, чип производился по 7-нм техпроцессу на мощностях TSMC. Второе поколение IPU вполне успешно атаковало именитых производителей, в том числе NVIDIA.

Позднее Graphcore представила дополнительные подробности, такие как наличие 1.472 ядер в IPU, которые могут одновременно обрабатывать 8.832 потоков. Кроме того, отметим 900 Мбайт памяти SRAM, внешнее подключение DDR4 и выделенный интерконнект для подключения до четырех IPU друг к другу с пропускной способностью до 2,8 Тбит/с.

Теперь Graphcore представила третье поколение IPU. Ожидается увеличение производительности на 40% по сравнению с предшественником. Эффективность должна увеличиться на 16%.

Но многое осталось прежним. Например, на уровне стоек IPU Pod ничего не изменилось. То есть изменений в программное обеспечение для работы с новыми BOW IPU вносить не требуется. Не изменилась и цена. IPU Pod с 16 ускорителями обойдется примерно в $150.000, то же самое касается нового поколения.

На первый взгляд, ничего не изменилось и с самими IPU. Процессор по-прежнему состоит из 1.472 так называемых ядер IPU, которые могут обрабатывать 8.832 вычислительных потока. То есть речь идет о SMT6 (Simultaneous Multithreading с шестью потоками на ядро). Вычислительные блоки Bow IPU оптимизированы под собственный формат данных. Graphcore называет его AI-Float, формат позволяет выполнять вычисления не больше 16 бит максимально эффективно. Но вычислительные блоки питания поддерживают FP32, FP16.32 (16 бит умножение и 32 бит сложение) и FP16.16 (16 бит умножение и сложение). Подобно вычислительным блокам NVIDIA GA100 GPU, ядра IPU поддерживают разреженные матрицы. Если матрица содержит большое количество нулей, то для более эффективных вычислений и хранения данных применяются различные технологии.

Ядра IPU могут обращаться к 900 Мбайт памяти на процессоре. Данная память SRAM распределена по всем ядрам IPU, которые организованы в тайлы IPU. Суммарная пропускная способность составляет 65 Тбайт/с. В случае Bow Pods четыре Bow IPU соединены между собой через IPU Gateway. Для этой цели чипы используют поддерживают 10 каналов IPU Link с пропускной способностью 320 Гбайт/с. Память DDR4 и накопители NVMe тоже подключаются к чипу IPU Gateway.

Bow Pods доступны в вариантах с 16, 32, 64, 256 и 1.024 IPU. Система с четырьмя Bow IPU названа Bow-2000, причем она содержит еще и процессор. IPU Pod Classic с 32 IPU ранее не были доступны, но теперь они позиционируются на промежуточный уровень. Поставки систем Bow Pods уже начались. И только старшие Pods с 1.024 IPU можно приобрести лишь по программе раннего доступа.

Сравнение поколений Pod
Количество IPU GC2000 IPU Bow-2000 IPU
16 4 PFLOPS 5,6 PFLOPS
32 - 11,2 PFLOPS
64 16 PFLOPS 22,4 PFLOPS
256 64 PFLOPS 89,6 PFLOPS
1.024 256 PFLOPS 358,4 PFLOPS

В таблице приведена теоретическая вычислительная производительность для указанного числа чипов. Для системы, состоящей из сотни чипов, важна хорошая масштабируемость. Здесь Graphcore находится на верном пути, что видно и по новым IPU.

Graphcore указывает теоретический прирост производительности до 40% по сравнению с предшествующими IPU. На самом деле диапазон составляет от 29 до 39%, учитывались такие приложения по вычислениям ИИ, как BERT, ResNet, GPT2, FastSpeech и другие. Прирост производительности, в том числе, является следствием увеличения частоты процессора с 1,25 ГГц до 1,85 ГГц. При этом удалось снизить напряжение питания. Graphcore уже заявляла о ряде преимуществ по сравнению с конкурентом NVIDIA с предыдущим поколением. Системы IPU работали быстрее, при этом стоили дешевле. Однако ограничения тоже имелись, поскольку в некоторых приложениях разница была уже не такой очевидной. И сложно сказать, как все это перенесется на приложения клиента. Как мы уже видели по последним результатам MLPerf V1.1, каждый производитель интерпретирует их по-своему. Конечно, цель здесь в том, чтобы показать свои системы в максимально выгодном ключе.

Как обычно, результаты тестов производителей следует воспринимать со скепсисом. Это касается не только Graphcore, но также и данных, публикуемых AMD, Intel и NVIDIA.

Наконец, Graphcore показала прирост эффективности. Здесь IPU Pod16 соревновался с новым Bow Pod16. И новая система Bow показала на 9-16% лучшую эффективность в разных тестах.

Первые процессоры на 3D wafer-on-wafer

Но как Graphcore удалось получить заявленный прирост производительности и эффективности? Bow IPU стали первыми процессорами, использующими так называемую технологию 3D wafer-on-wafer. Graphcore здесь работала вместе с TSMC, на мощностях которой выпускались предшествующие поколения IPU. Теперь можно говорить о переходе на технологию SoIC WoW, которую мы опишем более детально.

Суть в следующем: подложка с IPU сначала экспонируется стандартно, причем на ней содержится порядка 60 кристаллов Colossus (так называются кристаллы IPU). Со стороны BEOL (back-end of line), где располагаются слои металлов и дорожки, теперь стыкуется второй кристалл. Он не содержит активных транзисторов, но обеспечивает подачу питания.

На кристалле питания, помимо прочего, содержатся конденсаторы Deep Trench Capacitors (DTC). Они представляют собой вертикальные полупроводниковые компоненты, подобная ориентация выбрана для увеличения емкости. Преимущество DTC перед другими конденсаторами, установленными на подложке (или сзади), заключается в том, что их можно располагать произвольно и максимально близко к нужным элементам (кристаллам IPU). Кроме того, DTC отличаются более высокой емкостью по отношению к площади, чем другие решения, такие как конденсаторы MIM (металл-изолятор-металл), которые Intel использует в 10-нм техпроцессе (Intel 7).

Структура следующая: чип подключается к корпусировке шариковыми контактами C4. Затем идет контактный слой UBM (under-bump metallization). Линии BTSV (Back-side through silicon) пробиты со слоя UBM напрямую на слой BEOL, чтобы получить контакт с двумя слоями BEOL на кристалле IPU. Конденсаторы DTC нужны для накопления заряда, к которому имеют доступ кристаллы IPU.

Две подложки изготавливаются независимо друг от друга, после чего соединяются вместе. После соединения кристалл питания шлифуется, чтобы на нанести на него слой UBM и шариковые контакты. Затем из двух 300-мм подложек, расположенных друг на друге, вырезаются чипы.

Проблема процесса wafer-on-wafer в том, что чипы нельзя протестировать на подложке. Две подложки соединяются вместе, из них вырезаются чипы, и только после этого возможно тестирование. Если выход годных кристаллов будет небольшой, то потери ресурсов будут велики, так как многие чипы окажутся дефектными.

Но и здесь есть хорошие новости. Начнем с того, что Graphcore производит подложки IPU по 7-нм техпроцессу (TSMC N7), который хорошо проработан, поэтому доля выхода годных кристаллов весьма велика. Во-вторых, в дизайне IPU предусмотрено большое количество резервных блоков. Функционируют 1.472 вычислительных ядра, но на чипе их намного больше. То же самое касается и 900 Мбайт памяти SRAM, которая зарезервирована в определенном объеме. Что позволит обойти ошибки, возникающие при производстве.

На ISSCC 2022 Intel рассказала о резервных блоках в процессорах Xeon нового поколения. Как видим, подобные шаги были сделаны и в случае Bow IPU.

Bow-2000 IPU Machine и другие

Если верить Graphcore, поставка первых систем на основе Bow IPU уже началась. Цена идентична предшественнику.

Системы на новых IPU базируются на узле Bow-2000 с четырьмя Bow IPU. 16 машин IPU с четырьмя Bow IPU каждая формируют стойку под названием Bow-POD64. Машины IPU работают независимо от существующей инфраструктуры. Только для чтения и записи данных приложений ИИ требуются стандартные системы.

В будущем Graphcore планирует построить суперкомпьютер "Good". Он будет опираться на IPU нового поколения, которых планируется до 8.192. Суперкомпьютер сможет рассчитывать модели ИИ с 500 трлн. (5·1014) параметров. Стоить такая система будет $120 млн.

С технической стороны Graphcore IPU выглядят весьма интересными, они наверняка смогут "отъесть" свою долю на рынке вычислений искусственного интеллекта, для которых они и предназначены. Хотя пока что спрос не такой большой, поскольку клиентам приходится выбирать между двумя несовместимыми системами. А здесь велика сила маркетинга, все же NVIDIA со своей экосистемой ИИ активно привлекает клиентов. Но и у Graphcore появились свои партнеры, хотя конкурировать с NVIDIA будет весьма нелегко.

Подписывайтесь на группы Hardwareluxx ВКонтакте и Facebook, а также на наш канал в Telegram (@hardwareluxxrussia).