> > > > Китайская компания Cambricon разрабатывает чипы ИИ для дата-центров

Китайская компания Cambricon разрабатывает чипы ИИ для дата-центров

Опубликовано:

cambriconРынок поставщиков чипов ИИ для дата-центров расширился еще одним производителем. Впрочем, компания Cambricon Technologies уже участвовала в разработке блока ИИ в SoC Kirin 970 от Huawei, который используется в том же Huawei Mate 10 Pro. Блок Cambricon-1A могут лицензировать и другие производители SoC, но пока что он используется только в Kirin 970.

Теперь Cambricon Technologies делает следующий шаг и представляет крупный чип ИИ для дата-центров. Ключевые спецификации: 64 TFLOPS с половинной точностью, 128 TOPS для вычислений INT8. При необходимости можно добиться и более высокой вычислительной производительности. Cambricon MLUv01/MLU100 производится на заводах TSMC по 16-нм техпроцессу. При тактовой частоте 1 ГГц достигается упомянутая выше производительность. Для сравнения, у NVIDIA Tesla V100 в формате SXM2 мы получаем 120 TOPS для вычислений INT8 и 30 TFLOPS для расчетов с половинной точностью. В отличие от Cambricon MLU100, NVIDIA также поддерживает вычисления с одинарной и двойной точностью. На 1,3 ГГц MLU100 увеличивает производительность до 83,2 TFLOPS для половинной точности и до 166,4 TOPS для INT8, но и тепловой пакет увеличивается до 110 Вт.

К укорителю ИИ подключаются 16 или 32 Гбайт памяти DDR4-3200 по 256-битному интерфейсу. Поддерживается ECC, пропускная способность памяти составляет 102,4 Гбайт/с. Как видим, пропускная способность памяти намного меньше конкурирующих продуктов.

Сравнение ускорителей ИИ
Модель Cambricon MLU100Cambricon MLU100 Boost NVIDIA Tesla V100 (SXM2)NVIDIA Tesla V100 (PCIe)Google TPU
Техпроцесс 16 нм16 нм 12 нм12 нм-
Число транзисторов -- 21 млрд.21 млрд.-
Архитектура Cambricon-MCambricon-M VoltaVolta-
TDP 80 Вт110 Вт 300 Вт250 Вт-
Ядра / блоки шейдеров -- 5.1205.120-
Частота 1,0 ГГц1,3 ГГц 1.455 МГц1.370 МГц-
Память DDR4-3200DDR4-3200 HBM2HBM2HBM2
Объем памяти 16 / 32 GB16 / 32 GB 16 / 32 GB16 / 32 GB16 GB
Шина памяти 256 бит256 бит 4.096 бит4.096 бит-
Пропускная способность памяти 102,4 Гбайт/с102,4 Гбайт/с 900 Гбайт/с900 Гбайт/с600 Гбайт/с
Половинная точность 64 TFLOPS83,2 TFLOPS 30 TFLOPS28 TFLOPS-
Одинарная точность -- 15 TFLOPS14 TFLOPS-
Двойная точность -- 7,5 TFLOPS7 TFLOPS-
INT8 128 TOPS166,4 TOPS 120 TOPS112 TOPS45 TOPS

Cambricon MLU100 на данный момент представляет собой карту расширения PCI Express. То есть его можно использовать вместо тех же NVIDIA Tesla V100 в варианте PCI Express. По всей видимости, Lenovo будет интегрировать ускорители в свои серверы ThinkSystem SR650, которые должны выйти в ближайшем будущем. Huawei также использует собственные серверы для исследований ИИ, наверняка в них используются ускорители Cambricon MLU100.

Насчет программной поддержки вопросов довольно много. Имеются SDK для TensorFlow, Caffe и MXNe, но в какой степени они оптимизированы под аппаратные ресурсы - неизвестно. Конечно, компания работает над следующим поколением под названием Cambricon-1M. Чип будет производиться по 7-нм техпроцессу, эффективность составит 5 TOPS/Вт. Что дает весьма существенный прирост по сравнению с нынешним 1,6 TOPS/Вт.