> > > > Как создавался суперкомпьютер DGX-1 с восемью NVIDIA Tesla P100

Как создавался суперкомпьютер DGX-1 с восемью NVIDIA Tesla P100

Опубликовано:

Весной NVIDIA представила DGX-1 – суперкомпьютер для сетей глубокого обучения с восемью ускорителями Tesla P100, соединенными через NVLink. Все детали об архитектуре Pascal и её вычислительных функциях мы рассказали в отдельной статье. Сейчас мы уже видим суперкомпьютер в готовом виде, но NVIDIA также рассказала о процессе разработки DGX-1 и посвятила этому отдельную запись в блоге.

Итак, разработка DGX-1 началась в мае 2015 года. NVIDIA имеет в виду только лишь сам компьютер, а не архитектуру чипов, на разработку которой ушло еще несколько лет. Топология Mesh Cube для восьми GPU соединенных через NVLink также уже была определена к этому времени. Однако на тот момент не было ни одного GPU с поддержкой NVLink. Такие чипы появились только через несколько месяцев.

NVIDIA DGX-1 Supercomputer mit acht Tesla P100NVIDIA DGX-1 Supercomputer mit acht Tesla P100

NVIDIA DGX-1 с восемью Tesla P100

Вопрос стоял не только в разработке аппаратного обеспечения. Напротив, в первую очередь нужно было разработать программное обеспечение, так как в противном случае сложно было бы использовать весь потенциал оборудования. NVIDIA разработала NCCL (NVIDIA Collective Communication Library), что стало связующим звеном между «железом» и инструментами глубокого обучения: Caffe, Theano, Torch, TensorFlow и CNTK.

В ноябре NVIDIA отпраздновала выход первых чипов GP100 на архитектуре Pascal. Для NVIDIA и контрактного производителя TSMC эти GPU были настоящим вызовом, потому что использовался новый 16-нм техпроцесс. Добавьте к этому тот факт, что с чипом на 15,7 миллиардов транзисторов нужно было впервые использовать память HBM2. Задача перед инженерами стояла очень сложная. В декабре первые GPU можно было использовать в DGX-1. Команде удалось соединить два GPU, а затем и три. С подключением четвертого ускорителя возникли проблемы, так как код для инфраструктуры NVLink не был завершен. Не был готов и корпус. Вместо него использовали конструкцию из оргстекла, металла и скотча.

QuantaPlex T21W-3UQuantaPlex T21W-3U

QuantaPlex T21W-3U

В конце марта текущего года, как раз за неделю до GPU Technology Conference, где и должен был быть представлен DGX-1, первый прототип компьютера был доставлен из Южной Кореи в США. В сетях глубокого обучения Google и AlexNet новый DGX-1 должен был показать десятикратный прирост производительности по сравнению с другими подобными системами. 3 апреля, за день до GTC 2016, благодаря тонкой настройке, DGX-1 показал производительность в 12 раз лучше, чем другие суперкомпьютеры. 5 апреля глава NVIDIA представил DGX-1 на докладе конференции GTC 2016.

В настоящее время прототип DGX-1 работает в центре обработки информации NVIDIA и служит нуждам команды в Нью Джерси, которая занимается изучением и разработкой систем автономного вождения. 30 мая первый суперкомпьютер был доставлен покупателю. Так, NVIDIA стала первым производителем, который предложил GPU с HBM второго поколения конечному потребителю. Суперкомпьютер DGX-1 стоит 129.000 долларов.