> > > > Intel выпустит Nervana NNP-L1000 (Spring Crest) в 2019 году

Intel выпустит Nervana NNP-L1000 (Spring Crest) в 2019 году

Опубликовано:

intelНа конференции AI DevCon Intel представила новые подробности о грядущем нейропроцессоре Spring Crest - Neural Network Processor (NNP). До сих пор последняя официальная информация была датирована осенью 2017 года: упоминались 32 Гбайт памяти HBM2 с пропускной способностью 1 Тбайт/с. Также компания планирует использовать собственные вычислительные кластеры, разработкой которых Nervana занималась до приобретения Intel.

Теперь появились новые подробности о Nervana NNP-L1000, чип будет содержать 12 вычислительных кластеров, которые могут выполнять все современные матричные вычисления и обрабатывать все типы данных, актуальные для машинного обучения. К ним относится и bfloat16. Напомним, что bfloat16 - новый тип данных, который пока что использовался только Google. Он отличается диапазоном FP32 с меньшей точностью, поскольку высокая точность в данном случае не нужна. Google использует этот тип данных для своих тензорных вычислительных блоков TPU (Tensor Processing Units). Intel также объявила, что поддержка bfloat16 будет расширена и на другие продукты. Среди них FPGA и процессоры Xeon.

Каждый из трех вычислительных кластеров оснащен контроллером памяти, к которому подключены 8 GB HBM2. Сложной иерархии кэшей нет, разве что имеются 2 Мбайт на каждый вычислительный кластер. Но программное обеспечение управляет памятью на чипе напрямую и использует ее как кэш. NNP-L1000 оснащен 12 каналами в пределах чипа ICL (Inter-Chip Links) с пропускной способностью 100 Гбайт/с в обоих направлениях каждый. Intel планирует использовать внешний интерконнект на 300 Гбайт/с для соединения нескольких чипов, при этом компания планирует добиться задержек 790 нс и ниже. Тепловой пакет составляет 210 Вт.

Что касается вычислительной производительности, Intel говорит в случае тестовой системы Lake Crest о 36 TFLOPS. Для сравнения NVIDIA Tesla V100 обеспечивает производительность 120 TFLOPS для вычислений INT8, важных для машинного обучения. Но Lake Crest достигает данный уровень при нагрузке 96% от заявленных 40 TFLOPS, а Tesla V100 может давать лишь порядка 30 TFOPS, в зависимости от приложений, что соответствует нагрузке 25%. В качестве основы для сравнения Intel использовала тест General Matrix to Matrix Multiplication (GEMM), в котором умножаются матрицы A (1536, 2048) и B (2048, 1536). Нагрузка масштабируется для матриц A (6144, 2048) и B (2048, 1536).

Spring Crest или Nervana NNP-L1000 должен показывать производительность до 120 TFLOPS, на практике можно рассчитывать на уровень 85 TFLOPS, что теоретически соответствует Tesla V100. Но из-за более высокой степени нагрузки Intel ожидает, что в 2019 году ускоритель будет в три-четыре раза быстрее конкурентов на GPU.

Lake Crest и Spring Crest производятся не самой Intel, а на заводах TSMC. Lake Crest по-прежнему производится по 28-нм техпроцессу, Spring Crest будет производиться по 16-нм технологии. По сравнению с процессорами и GPU мы получаем отставание по техпроцессу. Пока неизвестно, когда именно в 2019 году Intel представит Nervana NNP-L1000 и по какой цене.