Новые ускорители Intel для искусственного интеллекта: NNP-T1000, NNP-I1000 и VPU

Опубликовано:

intel-nervana-nnp-l-1000В рамках AI Summit 2019 Intel представила новые ускорители искусственного интеллекта. Главным образом это нейропроцессоры Nervana Neural Network Processors (NNP). NNP-T1000 ориентирован на тренировку нейросетей, NNP-I1000 - на инференс. Intel в минувшие месяцы уже опубликовала технические спецификации обоих продуктов, теперь они официально объявлены.

NNP-T1000 с кодовым названием Spring Crest состоит из 27 млрд. транзисторов и оснащен 32 Гбайт памяти HBM2. Intel установила компоненты на подложку площадью 1.200 мм². ASIC опирается на 24 Tensor Processors (TPCs), которые обеспечивают вычислительную производительность 119 TOPS. SoC также оснащена 60 Мбайт встроенной на кристалл памяти (SRAM). Чтобы данные были как можно ближе к TPCs, Intel также установила четыре кристалла HBM2 емкостью 8 Гбайт каждый, что как раз и дает 32 Гбайт в сумме. Отметим интерфейс PCIe 4.0 с 16 линиями и 64 SerDes (serializer/deserializer). NNP-T производится TSMC по 16-нм техпроцессу (CLN16FF+).

NNP-T заключен в корпусировку 60 x 60 мм c 3.325 контактами BGA. Таким образом, чип NNP-T не вставляется в сокет, а припаивается к материнской плате. NNP-T работает с тактовой частотой 1,1 ГГц, тепловой пакет TDP может конфигурироваться от 150 до 250 Вт.

Чип NNP-I1000 под кодовым названием Spring Hill известен не так хорошо. Здесь Intel использовала два ядра Sunny Cove, которые выпускаются по 10-нм техпроцессу. Для ускорения инструкций инференса поддерживается DL Boost. Отметим 12 блоков Inference and Compute Units (ICE). NNP-I1000 может работать с TDP от 10 до 50 Вт. Производительность INT8, соответственно, меняется от 48 до 92 TOPS.

Объем памяти составляет 3 Мбайт в виде корпусировки Tightly-Coupled Memory (TCM) с пропускной способностью 68 Тбайт/с. Добавим 48 Мбайт SRAM с пропускной способностью 6,8 Тбайт/с. Присутствуют и 24 Мбайт кэша LLC (low latency cache) с пропускной способностью 680 Гбайт/с. Наконец, объем памяти LPDDR4 может составлять до 32 Гбайт, она подключена с пропускной способностью до 67,2 Гбайт/с.

Intel упаковала чип и память в формат модуля M.2. То есть ускорители позволяют создавать довольно компактные системы. Несколько десятков ускорителей, например, можно уместить в рамках сервера 2U.

Новый Movidius Vision Processing Unit (VPU) был объявлен в качестве решения для разработчиков, доступность заявлена во второй половине 2020.

Подписывайтесь на группы Hardwareluxx ВКонтакте и Facebook, а также на наш канал в Telegram (@hardwareluxxrussia).