NVIDIA раскрыла производительность MLPerf ускорителя A100

nvidia-a100 В сотрудничестве с MLPerf NVIDIA опубликовала первые результаты производительности ускорителя A100 на основе архитектуры Ampere или GA100 GPU. Он был представлен на GPU Technology Conference в середине мая. Кроме версии для дата-центров, доступен вариант PCI Express.

Бенчмарк MLPerf призван облегчить сравнение разных систем машинного обучения, поскольку до сих пор единого теста не было. Причина в том, что соответствующие приложения адаптируются под конкретную аппаратную и программную платформу. Что затрудняет сравнение.

Все крупные производители чипов работают с MLPerf, в том числе и OEM. Результаты нельзя просто внести в базу MLPerf, сначала выполняется так называемая оценка "Peer Review" несколькими специалистами. При этом они могут потребовать провести повторное тестирование. Есть и другие условия. Например, у потребителей должен быть прямой доступ к железу - как через облачные инстанции, так и возможность купить ускорители. В случае ускорителей A100 есть возможность их использования в облаке, а системы DGX A100 можно приобрести.

MLPerf в версии 0.7 состоит из пакета тестов. В общей сложности их насчитывается 16. И во всех тестах NVIDIA указывает лидирующие позиции ускорителя A100. Речь идет как об отдельной работе ускорителя A100, так и в составе систем, подобных DGX SuperPOD. На данный момент оценивается только тренировка систем глубокого обучения. То есть инференс тест MLPerf 0.7 не рассматривает.

Следует упомянуть другие системы, доступные для сравнения. Среди них - ускоритель V100 от NVIDIA, то есть прямой предшественник, но также система Huawei Ascend и третье поколение Google TPU.

Если взять собственное решение NVIDIA V100 в качестве базы, система на ускорителях A100 будет работать в 1,5-2,5 раза быстрее. Конкуренты по сравнению с V100 дают производительность от 0,7 до 1,2 раз быстрее/медленнее. Но все они уступают A100. Впрочем, следует отметить, что у конкурентов приведены далеко не все результаты.

NVIDIA рассказала о своем видении будущего, добавив расчетные показатели. В том числе процессоры Intel Xeon 3-го поколения под кодовым названием Cooper Lake. Результаты предполагаемых Google TPU 4-го поколения иногда находятся на уровне системы A100, но в ряде случаев существенно ниже или чуть быстрее, в зависимости от теста. В примечаниях указано, что производительность приведена для одного чипа или учитывает масштабирование на 8, 32, 64 или даже 512 ускорителей.

Конечно, к подобному сравнению стоит отнестись скептически. Следует внимательно изучать, какие именно значения сравнивались в тестах MLPerf. По крайней мере, на основе результатов производительности ранее проведенных тестов MLPerf на собственных чипах, NVIDIA заявляет о приросте производительности в четыре раза за последние 18 месяцев.

Тест MLPerf 0.7 не оценивает инференс. Здесь ускорители NVIDIA A100 тоже должны себя показывать с лучшей стороны из-за 3-го поколения ядер Tensor. Активная технология Structural Sparsity тоже должна обеспечивать прирост производительности помимо чистых результатов - конечно, при наличии оптимизации.

MLPerf может стать новым стандартом

Отсутствующие результаты указывают, что пройдет еще какое-то время, прежде чем будет набрана достаточная база для сравнения. Но тест MLPerf 0.7 уже задает правильное направление. С ускорителями A100 NVIDIA заявляет об удвоении или даже учетверении производительности - в зависимости от теста. Однако сравнивать с конкурентами нелегко из-за отсутствия данных.

Результаты версии 0.6 можно посмотреть на сайте www.mlperf.org. Результаты версии 0.7 тоже скоро будут опубликованы.

Подписывайтесь на группы Hardwareluxx ВКонтакте и Facebook, а также на наш канал в Telegram (@hardwareluxxrussia).