> > > > Hotchips 34: китайский Biren BR100 GPU без графики и FP64

Hotchips 34: китайский Biren BR100 GPU без графики и FP64

Опубликовано:

birenНа конференции Hotchips китайская компания Biren представила BR100 GPU, который предназначается для сегмента вычислений ИИ, а не видеокарт. Дело в том, что BR100 GPU не может выводить графику, а GPU здесь расшифровывается как General Processing Unit (ускоритель общего назначения).

BR100 GPU имеет дизайн чиплетов, он состоит из двух кристаллов с двумя чиплетами памяти HBM2E рядом с каждым. Площадь вычислительных кристаллов в сумме составляет 1.074 мм², они содержат 77 млрд. транзисторов. Производство осуществляется по 7-нм техпроцессу, скорее всего, на мощностях TSMC, хотя это явно и не указано. Емкость памяти HBM2E - 64 Гбайт. Два вычислительных кристалла связаны через интерфейс BLink с пропускной способностью 896 Гбайт/с. Напомним, что у Radeon Instinct MI250X два чипа обмениваются данными на 800 Гбайт/с. Так что и здесь BR100 GPU не хуже конкурента.

В модулях OAM, предназначенных для дата-центров, BR100 GPU работает с энергопотреблением до 550 Вт. Поддерживается прямое подключение до восьми чипов BR100 друг к другу, для связи с host-системой предусмотрен интерфейс PCI Express 5.0. Также планируется выпустить урезанный вариант BR104, который будет устанавливаться на карты расширения PCI Express. Здесь в составе корпусировки будет только один чип.

GPU состоит из 16 SPC (Streaming Processing Clusters), которые содержат 16 EU (Execution Units). Каждый EU состоит из 16 V-core (streaming processing core) и движка Tensor (T-core). Для функциональных блоков доступны 4x 64 кбайт кэша L1 и LSC (Load & Store Cache). Можно отметить и до 8 Мбайт кэша L2.

Ядра V-Core представляют собой вычислительные блоки SIMT общего назначения с поддержкой форматов FP32, FP16, INT32 и INT16. Интересно, что GPU не может работать с форматом FP64. Ядра T-core предназначены для матричных вычислений MMA (Matrix Multiplication Addition). Ядра T-core могут выполнять матричные умножения 64x64 и поддерживают форматы данных FP32, TF32, BF16, INT16, INT8 и INT4.

Если посмотреть на результаты производительности, опубликованные Biren для BR100 GPU, то упоминаются 256 TFLOPS для вычислений FP32. Напомним, что ускоритель Intel Ponte Vecchio должен давать 52 TFLOPS на ядрах Xe, а NVIDIA H100 – 60 TFLOPS. Biren для BF16 обещает 1.024 TFLOPS, у Intel и NVIDIA – 839 и почти 2.000 TFLOPS, соответственно. В формате INT8, который становится все более популярным для матричных вычислений, Intel и NVIDIA дают порядка 1.600 и 4.000 TFLOPS, но BR100 обеспечивает 2.048 TFLOPS.

Biren BR100 GPU интересен и с технической точки зрения. В корпусировке CoWoS установлены 2x кристалла площадью 537 мм² вместе с 4x тайлами HBM2E. Кроме того, емкость память SRAM на чипе составляет 300 Мбайт. Все это звучит намного впечатляюще, чем три года назад, когда стартовала разработка ускорителя. Производитель и здесь предпочитает сравнивать результаты с NVIDIA A100. Но к тому времени, как ускоритель BR100 появится на рынке, его соперником станет уже H100, а со стороны Intel и AMD будут выступать Ponte Vecchio и Radeon Instinct MI250X. В любом случае, следует дождаться независимых тестов BR100 GPU.

Подписывайтесь на группу Hardwareluxx ВКонтакте и на наш канал в Telegram (@hardwareluxxrussia).

Мы рекомендуем ознакомиться с нашим руководством по выбору видеокарты для разных бюджетов.