Рынок поставщиков чипов ИИ для дата-центров расширился еще одним производителем. Впрочем, компания Cambricon Technologies уже участвовала в разработке блока ИИ в SoC Kirin 970 от Huawei, который используется в том же Huawei Mate 10 Pro. Блок Cambricon-1A могут лицензировать и другие производители SoC, но пока что он используется только в Kirin 970.
Теперь Cambricon Technologies делает следующий шаг и представляет крупный чип ИИ для дата-центров. Ключевые спецификации: 64 TFLOPS с половинной точностью, 128 TOPS для вычислений INT8. При необходимости можно добиться и более высокой вычислительной производительности. Cambricon MLUv01/MLU100 производится на заводах TSMC по 16-нм техпроцессу. При тактовой частоте 1 ГГц достигается упомянутая выше производительность. Для сравнения, у NVIDIA Tesla V100 в формате SXM2 мы получаем 120 TOPS для вычислений INT8 и 30 TFLOPS для расчетов с половинной точностью. В отличие от Cambricon MLU100, NVIDIA также поддерживает вычисления с одинарной и двойной точностью. На 1,3 ГГц MLU100 увеличивает производительность до 83,2 TFLOPS для половинной точности и до 166,4 TOPS для INT8, но и тепловой пакет увеличивается до 110 Вт.
К укорителю ИИ подключаются 16 или 32 Гбайт памяти DDR4-3200 по 256-битному интерфейсу. Поддерживается ECC, пропускная способность памяти составляет 102,4 Гбайт/с. Как видим, пропускная способность памяти намного меньше конкурирующих продуктов.
Модель | Cambricon MLU100 | Cambricon MLU100 Boost | NVIDIA Tesla V100 (SXM2) | NVIDIA Tesla V100 (PCIe) | Google TPU |
Техпроцесс | 16 нм | 16 нм | 12 нм | 12 нм | - |
Число транзисторов | - | - | 21 млрд. | 21 млрд. | - |
Архитектура | Cambricon-M | Cambricon-M | Volta | Volta | - |
TDP | 80 Вт | 110 Вт | 300 Вт | 250 Вт | - |
Ядра / блоки шейдеров | - | - | 5.120 | 5.120 | - |
Частота | 1,0 ГГц | 1,3 ГГц | 1.455 МГц | 1.370 МГц | - |
Память | DDR4-3200 | DDR4-3200 | HBM2 | HBM2 | HBM2 |
Объем памяти | 16 / 32 GB | 16 / 32 GB | 16 / 32 GB | 16 / 32 GB | 16 GB |
Шина памяти | 256 бит | 256 бит | 4.096 бит | 4.096 бит | - |
Пропускная способность памяти | 102,4 Гбайт/с | 102,4 Гбайт/с | 900 Гбайт/с | 900 Гбайт/с | 600 Гбайт/с |
Половинная точность | 64 TFLOPS | 83,2 TFLOPS | 30 TFLOPS | 28 TFLOPS | - |
Одинарная точность | - | - | 15 TFLOPS | 14 TFLOPS | - |
Двойная точность | - | - | 7,5 TFLOPS | 7 TFLOPS | - |
INT8 | 128 TOPS | 166,4 TOPS | 120 TOPS | 112 TOPS | 45 TOPS |
Cambricon MLU100 на данный момент представляет собой карту расширения PCI Express. То есть его можно использовать вместо тех же NVIDIA Tesla V100 в варианте PCI Express. По всей видимости, Lenovo будет интегрировать ускорители в свои серверы ThinkSystem SR650, которые должны выйти в ближайшем будущем. Huawei также использует собственные серверы для исследований ИИ, наверняка в них используются ускорители Cambricon MLU100.
Насчет программной поддержки вопросов довольно много. Имеются SDK для TensorFlow, Caffe и MXNe, но в какой степени они оптимизированы под аппаратные ресурсы - неизвестно. Конечно, компания работает над следующим поколением под названием Cambricon-1M. Чип будет производиться по 7-нм техпроцессу, эффективность составит 5 TOPS/Вт. Что дает весьма существенный прирост по сравнению с нынешним 1,6 TOPS/Вт.