Китайская компания Cambricon разрабатывает чипы ИИ для дата-центров

Рынок поставщиков чипов ИИ для дата-центров расширился еще одним производителем. Впрочем, компания Cambricon Technologies уже участвовала в разработке блока ИИ в SoC Kirin 970 от Huawei, который используется в том же Huawei Mate 10 Pro. Блок Cambricon-1A могут лицензировать и другие производители SoC, но пока что он используется только в Kirin 970.

Теперь Cambricon Technologies делает следующий шаг и представляет крупный чип ИИ для дата-центров. Ключевые спецификации: 64 TFLOPS с половинной точностью, 128 TOPS для вычислений INT8. При необходимости можно добиться и более высокой вычислительной производительности. Cambricon MLUv01/MLU100 производится на заводах TSMC по 16-нм техпроцессу. При тактовой частоте 1 ГГц достигается упомянутая выше производительность. Для сравнения, у NVIDIA Tesla V100 в формате SXM2 мы получаем 120 TOPS для вычислений INT8 и 30 TFLOPS для расчетов с половинной точностью. В отличие от Cambricon MLU100, NVIDIA также поддерживает вычисления с одинарной и двойной точностью. На 1,3 ГГц MLU100 увеличивает производительность до 83,2 TFLOPS для половинной точности и до 166,4 TOPS для INT8, но и тепловой пакет увеличивается до 110 Вт.

К укорителю ИИ подключаются 16 или 32 Гбайт памяти DDR4-3200 по 256-битному интерфейсу. Поддерживается ECC, пропускная способность памяти составляет 102,4 Гбайт/с. Как видим, пропускная способность памяти намного меньше конкурирующих продуктов.

Сравнение ускорителей ИИ
Модель	Cambricon MLU100	Cambricon MLU100 Boost	NVIDIA Tesla V100 (SXM2)	NVIDIA Tesla V100 (PCIe)	Google TPU
Техпроцесс	16 нм	16 нм	12 нм	12 нм	-
Число транзисторов	-	-	21 млрд.	21 млрд.	-
Архитектура	Cambricon-M	Cambricon-M	Volta	Volta	-
TDP	80 Вт	110 Вт	300 Вт	250 Вт	-
Ядра / блоки шейдеров	-	-	5.120	5.120	-
Частота	1,0 ГГц	1,3 ГГц	1.455 МГц	1.370 МГц	-
Память	DDR4-3200	DDR4-3200	HBM2	HBM2	HBM2
Объем памяти	16 / 32 GB	16 / 32 GB	16 / 32 GB	16 / 32 GB	16 GB
Шина памяти	256 бит	256 бит	4.096 бит	4.096 бит	-
Пропускная способность памяти	102,4 Гбайт/с	102,4 Гбайт/с	900 Гбайт/с	900 Гбайт/с	600 Гбайт/с
Половинная точность	64 TFLOPS	83,2 TFLOPS	30 TFLOPS	28 TFLOPS	-
Одинарная точность	-	-	15 TFLOPS	14 TFLOPS	-
Двойная точность	-	-	7,5 TFLOPS	7 TFLOPS	-
INT8	128 TOPS	166,4 TOPS	120 TOPS	112 TOPS	45 TOPS

Cambricon MLU100 на данный момент представляет собой карту расширения PCI Express. То есть его можно использовать вместо тех же NVIDIA Tesla V100 в варианте PCI Express. По всей видимости, Lenovo будет интегрировать ускорители в свои серверы ThinkSystem SR650, которые должны выйти в ближайшем будущем. Huawei также использует собственные серверы для исследований ИИ, наверняка в них используются ускорители Cambricon MLU100.

Насчет программной поддержки вопросов довольно много. Имеются SDK для TensorFlow, Caffe и MXNe, но в какой степени они оптимизированы под аппаратные ресурсы - неизвестно. Конечно, компания работает над следующим поколением под названием Cambricon-1M. Чип будет производиться по 7-нм техпроцессу, эффективность составит 5 TOPS/Вт. Что дает весьма существенный прирост по сравнению с нынешним 1,6 TOPS/Вт.