PNY AIRI - системы для вычислений HPC и искусственного интеллекта

PDFПечатьE-mail

Опубликовано:
Андрей Шиллинг

pny-airiУже несколько лет NVIDIA предлагает свои системы для высокопроизводительных вычислений HPC и сетей глубокого обучения. Партнеры компании, в том числе IBM, Dell, HPE, предлагают свои серверы. PNY еще с 2003 года является эксклюзивным партнером NVIDIA по производству видеокарт Quadro и Tesla, причем компания предлагает и серверы HPC.

На конференции GPU Technology Conference в марте была объявлена линейка AIRI. Теперь нам представилась возможность поближе познакомиться с системой AIRI в Бордо (Франция). Также мы смогли пообщаться с разработчиками системы.

Под брендом AIRI выпускаются серверы для систем искусственного интеллекта на основе NVIDIA DGX-1. Теоретически могут интегрироваться и новые DGX-2, но NVMe SSD здесь не нужны, поскольку имеются хранилища FlashBlade. А масштабируемость AIRI достигается несколькими системами DGX-1.

Также используются компоненты хранения PureStorage, сетевая инфраструктура представлена коммутаторами от Arista и Cisco. Ниже мы их рассмотрим подробнее.

Системы DGX упираются в хранилища и сеть

В прошлом году NVIDIA представила свои системы DGX-1. Они состояли из восьми ускорителей Tesla V100 с 16 или 32 Гбайт HBM2. Также использовались два процессора Intel Xeon E5-2698 v4 с 20 ядрами каждый, 512 Гбайт DDR4-2133 и четыре SSD на 2 Тбайт в RAID 0. Подключение выполнялось через четыре канала InfiniBand на 25 Гбит/с каждый и два сетевых интерфейса 10 GbE.

Хранилище на SSD емкостью 8 Тбайт, упомянутое выше, оказалось узким местом системы DGX-1, поскольку массивы для сетей глубокого и машинного обучения существенно превышают 8 Тбайт. У Zenuity, сети автономного вождения, объем данных достиг 20 петабайт. Конечно, не все записи нужны одновременно. Но массивы данных подобных сетей все равно могут быть довольно крупными. Их приходится подключать через внешние хранилища - на данный момент через NAS. Собственно, здесь PNY AIRI взаимодействует с PureStorage.

FlashBlade состоит из 15 blade-систем, каждая имеет емкость от 17 до 52 Тбайт. В результате суммарная емкость составляет от 190 до 1.607 Тбайт - существенно больше 8 Тбайт у DGX-1. Кроме того, внешнее хранилище поддерживает разные массивы RAID. В случае DGX-1 используется массив RAID 0, в случае сбоя одного накопителя будет потерян весь массив. В случае же FlashBlade можно настроить защиту данных. Теоретическая пропускная способность системы составляет 17 Гбайт/с, производительность - 1,5 млн. IOPS. Систему FlashBlade можно подключать по восьми портам 40 GbE и 32x 10 GbE. Система FlashBlade занимает пространство 4U в стойке.

Третий компонент - сетевые коммутаторы. В зависимости от конфигурации PNY AIRI, используются Arista DCS-7060CX2-32S с 32x 100 GbE и 2x 10 GbE, либо Cisco Nexus 9336C-FX2 с 36x 100/40 GbE.

Для многих компаний ИИ остается за гранью понимания

Многие компании до сих пор не осознают преимуществ искусственного интеллекта и машинного обучения. Четыре-пять лет назад эта тема привлекла к себе немало внимания, с тех пор многие компании, у которых имеются массивы собственных данных, попробовали ИИ и машинное обучения для их обработки. Даже если компания не занимается подобной обработкой самостоятельно, она может привлекать сторонние сервисы.

Рано или поздно для ИИ и машинного обучения потребуется специализированное аппаратное оснащение, хотя здесь все зависит от объемов данных, особенностей тренировки и других характеристик. Простую сеть глубокого обучения можно создать на обычных ускорителях NVIDIA Titan V. Однако система на Titan V не сможет работать с крупными массивами данных. Ее можно рассматривать как тестовую систему, которая может показать возможности сетей глубокого обучения, а также выполнить пример тренировки на основе массива данных компании. Затем проект можно увеличивать и тестировать, например, на основе облачных сервисов.

Сама NVIDIA, а также Amazon и Microsoft предлагают соответствующую облачную инфраструктуру на ускорителях NVIDIA, так что сеть глубокого обучения можно легко перенести с Titan V на более мощные вычислительные системы. Причем без особых ухищрений. С помощью своих решений Docker NVIDIA обеспечивает удобный перенос - с одного ускорителя на полные системы DGX.

В зависимости от вычислительных потребностей и частоты использования, уже через три месяца имеет смысл приобрести сервер, подобный AIRI от PNY. Впрочем, здесь все зависит от различных параметров и решается индивидуально. Если смотреть на облачные вычисления, то здесь намного важнее вопрос хранения данных на сервисах NVIDIA, Google или Amazon. Из соображений защиты данных многие компании не решаются на облачные хранилища, даже если данные хранятся в зашифрованном виде. Если все данные придется обрабатывать внутри компании, то здесь единственным решением является покупка собственного сервера.

Практические примеры

Некоторые компании уже используют серверы AIRI от PNY. Например, Volvo применяет систему из десяти DGX-1 и двух FlashBlade. Точную конфигурацию сетевой инфраструктуры или FlashBlade компания не сообщает. Но на дорогах в мире сегодня тестируются почти 200 автономных машин Volvo, и их данные как раз обрабатываются на сервере PNY AIRI.

Бизнес-инкубатор UnternehmerTUM в Мюнхене тоже приобрел PNY AIRI, система используется для стартапов, которые могут запускать сценарии ИИ и машинного обучения. Год назад мы сообщали, что команды Формулы 1 также используют подобные решения. В то время систем AIRI еще не существовало, но Mercedes AMG Petronas хранила данные на FlashBlade, которые обрабатывались в фоне с помощью систем ИИ. PNY сейчас обсуждает поставку систем AIRI в несколько банков, где они будут использоваться для оценки рисков и выявления подозрительных финансовых операций.

Впрочем, следует помнить, что за каждую DGX-1 придется отдать порядка $150.000, также PureStorage FlashBlade и сетевая инфраструктура стоит весьма недешево. В итоге инвестиции легко составят несколько сотен тысяч долларов.