> > > > Tesla: чип D1 для тренировки и суперкомпьютер Dojo на 1,1 EFLOPS

Tesla: чип D1 для тренировки и суперкомпьютер Dojo на 1,1 EFLOPS

Опубликовано:

tesla-fsd-chipНа мероприятии AI Day Tesla рассказала о своих нынешних и будущих программных и аппаратных разработках в сфере автономного вождения. Конечно, системы автономного вождения сегодня уже могут выполнять различные задачи и вести по маршруту, но пройдет еще какое-то время, прежде чем автопилот сможет полностью выполнить маршрут из точки А в точку Б без помощи человека.

Для подобных автономных систем требуются современные технологии сенсоров. Но также необходимо обрабатывать информацию, поступающую с сенсоров. Для этой цели используются крупные сети глубокого обучения, которые тренируются на реальной информации, поступающей с камер. Тренировка выполняется на суперкомпьютерах, которые, в том числе, построены на компонентах NVIDIA.

Компания масштаба Tesla может самостоятельно инвестировать в разработки железа, подобно Amazon, Microsoft или Google. Сначала Tesla разработала системы автономного вождения FSD (Full Self Driving) для своих автомобилей. Следующий этап – аппаратное обеспечение для тренировки сетей глубокого обучения.

Первый собственный чип Tesla для тренировки сетей глубокого обучения называется D1. Он будет использоваться в дата-центрах компании. D1 представляет собой процессор с блоками матричных вычислений, для 64-битных суперскалярных ядер поддерживается SMT4. Процессор работает с данными в форматах FP32, BFP16, CFP8, INT32, INT16 и INT8.

D1 производится по 7-нм техпроцессу на мощностях TSMC. Чип содержит 50 млрд. транзисторов на площади 645 мм². Вычислительная производительность составляет 362 TFLOPS (BF16 и CFP8) или 22,6 TFLOPS для вычислений FP32. Для сравнения: у NVIDIA A100 используются 54,2 млрд. транзисторов на площади 826 мм², чип производится по 7-нм технологии. В случае матричных вычислений производительность составляет 312 TFLOPS. Tesla D1 и A100 могут потреблять до 400 Вт.

Но важна не только вычислительная производительность. Данные должны быстро поступать на вычислительные ядра, поэтому подключение памяти очень важно. Кэш SRAM сравнительно небольшой – 1,5 Мбайт. Внутренняя пропускная способность чипа – 10 Тбайт/с. Внешние интерфейсы располагаются на кольце ввода/вывода, для них обеспечивается пропускная способность 4 Тбайт/с по 576 линиям, 112 Гбит/с у каждой.

Tesla обещает и отличную масштабируемость. В одном модуле можно упаковать 25 таких чипов в раскладке 5x5. Что несколько напоминает Cerebras Wafer Scale Engine (WSE). Однако Tesla не производит чипы D1 на одной подложке, а собирает их из отдельных модулей. Но питание и охлаждение такие же, как у WSE.

Один модуль тренировки имеет вычислительную производительность 565 TFLOPS (FP32) и пропускную способность ввода/вывода 36 Тбайт/с. В стойке Tesla использует 12 данных модулей тренировки в конфигурации 2x3x2, а десять стоек как раз составляют суперкомпьютер Project Dojo.

Сама Tesla уже использует один из самых быстрых суперкомпьютеров. Он состоит из 720 узлов, каждый с восемью GPU-ускорителями NVIDIA A100. Таким образом, здесь работают 5.760 GPU, каждый с 80 Гбайт видеопамяти. Какие процессоры установлены в узлах - неизвестно.

Dojo будет работать намного быстрее данной системы. 3.000 процессоров D1 обеспечат вычислительную производительность 1,1 EFLOPS для вычислений BF16 и CFP8, либо 67,8 PFLOPS для вычислений FP32. Кластер с ускорителями NVIDIA обеспечивает 1,8 EFLOPS (BF16 и CFP8), но, как мы указали выше, он содержит 5.760 GPU на 400 Вт каждый, а Dojo обходится 3.000 процессорами D1.

Однако Project Dojo пока не завершен. Первые тестовые чипы работают на 2 ГГц. Система охлаждения способна отвести 15 кВт тепла. Tesla планирует запустить суперкомпьютер Dojo в следующем году.

Подписывайтесь на группы Hardwareluxx ВКонтакте и Facebook, а также на наш канал в Telegram (@hardwareluxxrussia).