> > > > Hot Chips 33: подробности дизайна GC200 Colossus Mk2 IPU

Hot Chips 33: подробности дизайна GC200 Colossus Mk2 IPU

Опубликовано:

graphcoreЛетом прошлого года Graphcore представила Colossus Mk2 GC200 IPU. Название говорит само за себя, чип действительно колоссальный: 59,4 млрд. транзисторов на площади 823 мм². Последние результаты производительности MLPerf указывают на то, что Graphcore находится на правильном пути, хотя пока компания сдержала не все обещания.

На Hot Chips нас заинтересовала презентация Graphcore, поскольку на ней сообщались подробности производства и дизайна данного чипа. Но сначала позвольте напомнить сведения о процессоре:

В 2018 году был представлен GC2 Colossus Mk1 IPU. Он содержал 1.216 вычислительных тайлов с 256 кбайт кэша SRAM на каждом. В сумме емкость SRAM составила 304 Мбайт с пропускной способностью 62 Тбайт/с. Скорость обмена между тайлами составила 7,8 Тбайт/с, внешняя пропускная способность - 320 Гбайт/с. В общей сложности на чипе работали 23.647.173.309 активных транзистора, кристалл производился по 16-нм техпроцессу на TSMC.

Второе поколение GC200 Colossus Mk2 получило уже 1.472 вычислительных тайла с 624 кбайт кэша SRAM на каждом. Вычислительная производительность увеличилась до 250 TFLOPS, суммарный объем SRAM составил 896 Мбайт. Пропускные способности остались прежними, но чип содержал уже 59.334.610.787 активных транзистора на площади 823 мм², а изготавливался по 7-нм техпроцессу TSMC.

Весьма интересна разбивка площади по функциональным блокам. Почти 50% уходит на кэш SRAM. И лишь порядка 25% занимают вычислительные блоки. Оставшиеся 25% распределены между областью Uncore (внешние интерфейсы, PHYs) и блоком Exchange. Выделение всего 25% под вычислительные блоки вроде бы удивляет, но с учетом увеличения размера кэша ничего необычного здесь нет.

Конечно, для производства столь крупного чипа пришлось добавить избыточность. Все же 59 млрд. транзисторов на площади 823 мм² без ошибок изготовить сложно. Graphcore указывает, что избыточность GC200 Colossus Mk2 составляет 23/24, то есть активны 1.472 из 1.536 вычислительных блоков, то есть 95,83%.

Как можно видеть на конференции Hot Chips 33, в сфере ускорителей ИИ пока преобладают крупные монолитные чипы, а не чиплеты. В системе набирается от нескольких сотен до нескольких тысяч подобных чипов. Пока что производство осуществляется, по большей части, по 7-нм техпроцессу. Но с переходом на 5 нм сложность подобных чипов наверняка увеличится.

Подписывайтесь на группы Hardwareluxx ВКонтакте и Facebook, а также на наш канал в Telegram (@hardwareluxxrussia).