Тест и обзор: NVIDIA Titan V – приложения для рабочих станций и вычисления

6273 XX

3304 XX

2328 XX

1203 XX

1119 XX

876 XX

семплы/с

Больше - лучше

Luxmark 3.0

Neuman

NVIDIA Titan V

30685 XX

17188 XX

9312 XX

6777 XX

3974 XX

3526 XX

2413 XX

семплы/с

Больше - лучше

Luxmark 3.0

LuxBall

NVIDIA Titan V

51283 XX

33387 XX

19439 XX

13171 XX

8554 XX

7271 XX

5106 XX

семплы/с

Больше - лучше

Blender

Второй тест - Blender. Мы использовали популярный бенчмарк Blender, а именно 3D-сцену, предложенную разработчиком. Чтобы Blender использовал для рендеринга GPU, необходимо выбрать в настройках соответствующий пункт. Там же следует выбрать GPU и для вычислений. Кроме того, мы увеличили размер Batch, то есть тайла на поток, с 16 до 256 пикселей. Все это позволит лучше нагружать GPU с несколькими сотнями или даже тысячами потоковых процессоров. Результат выводится в виде времени рендеринга сцены в секундах.

Blender

тест Blender

0 XX

0 XX

873 XX

NVIDIA Titan V

1055 XX

1104 XX

1160 XX

1600 XX

время в секундах

Меньше - лучше

Adobe After Effects

Мы использовали Adobe After Effects для рендеринга заставки 4K с альфа-каналом. Как правило, мы готовим подобную заставку к каждой выставке, после чего используем ее для дальнейших роликов. И шести видеокартам для рабочих станций предстояло выполнить рендеринг заставки. Результат оценивался в виде времени, которое ушло на рендеринг.

Adobe After Effects

Рендеринг 4K заставки

NVIDIA Titan V

83 XX

104 XX

114 XX

119 XX

268 XX

289 XX

432 XX

время в секундах

Меньше - лучше

V-Ray Benchmark

Продолжим с тестом V-Ray Benchmark. Он представляет собой синтетический бенчмарк Chaosgroup, создателя плагина V-Ray для различных пакетов 3D-рендеринга. Здесь мы вновь оценивали время рендеринга сцены.

V-Ray

Тест V-Ray

NVIDIA Titan V

30 XX

48 XX

70 XX

160 XX

181 XX

199 XX

230 XX

время в секундах

Меньше - лучше

Unreal Engine Infiltrator Rendering

Еще один интересный бенчмарк – рендеринг демо Infiltrator на Unreal Engine 4, которое NVIDIA часто использует на своих презентациях. До сих пор рендеринг в реальном времени не представляется возможным. Чтобы собрать все данные и 3D-модели для рендеринга демо в Unreal Engine Editor требуется приличная вычислительная производительность. Мы оценили время выполнения рендеринга.

Unreal Engine

Infiltrator Rendering

NVIDIA Titan V

1630 XX

2135 XX

2274 XX

2402 XX

5851 XX

5878 XX

8753 XX

время в секундах

Меньше - лучше

GPUPI

GPUPI опирается на интерфейс OpenCL для вычисления числа Пи с помощью формулы Бэйли — Боруэйна — Плаффа. Вычисления разделяются на отдельные части, результат выдается в шестнадцатеричном формате. Каждая часть содержит определенную порцию вычислений по формуле BPP (Бэйли — Боруэйна — Плаффа). Таким образом, вычисления можно разбить по сотням или даже тысячам потоковых процессоров GPU. Производительность вычислений очень сильно зависит от скорости расчетов FP64 на GPU.

GPUPI

1B

NVIDIA Titan V

5.714 XX

10.169 XX

19.091 XX

26.274 XX

53.079 XX

57.709 XX

73.194 XX

время в секундах

Меньше - лучше

GPUPI

1B

NVIDIA Titan V

458.973 XX

815.803 XX

1516.285 XX

2194.791 XX

4269.125 XX

4568.148 XX

5867.993 XX

время в секундах

Меньше - лучше

Анализ изображений

В нашем последнем сравнительном тестировании мы оценили производительность тренировки небольшой сети глубокого обучения. Но сразу же отметим, что задачу тренировки вряд ли можно назвать целевой для видеокарт, ориентированных на рабочие станции (что касается и моделей Quadro от NVIDIA, и AMD Radeon Pro). Здесь AMD предлагает ускорители Radeon Instinct, а NVIDIA – карты Tesla. Но Titan V как раз может стать промежуточным решением – по сравнению с профессиональными ускорителями видеокарта стоит более доступно.

Мы использовали библиотеку семплов для тренировки, а именно фото библиотеку TensorFlow. Тесты проводились под Ubuntu 14.04 вместе с соответствующими интерфейсами глубокого обучения для AMD и NVIDIA. Библиотека семплов содержит порядка 40.000 фотографий (200 Гбайт). Во время обработки фотографий каждый снимок разделяется на плитки 32 x 32 пикселя, при этом обрабатывается метаинформация, связанная с отображаемыми объектами. К последним относятся самолеты, машины, кошки, лица, корабли и т.д.

Из-за небольшого размера библиотеки семплов мы не стали фиксировать общее время выполнения задачи, а представили результат в кадрах в секунду. Его можно использовать и для оценки обработки значительных массивов данных.

Deep Learning / Machine Learning

Распознавание изображений по базе в 200 Гбайт

NVIDIA Titan V

3426.3 XX

919.3 XX

26.6 XX

18.1 XX

10.2 XX

8.9 XX

7.3 XX

Кадры в секунду

Больше - лучше

Natural Language Processing

Во втором тесте обрабатываются запросы в сеть глубокого обучения (inferencing), что знакомо пользователям смартфонов по тем же голосовым помощникам, распознающим речь (Natural Language Processing). Та же Apple использует под iOS машинное обучение, чтобы автоматически дополнять предложения или фразы. Система тренируется, анализируя текст, набираемый пользователем. И предлагает свои решения на основе предыдущего опыта. Оцениваются вероятности появления слов и фраз. В конце концов система становится способной дополнять предложения, начатые пользователем – предлагая ему актуальные варианты.

Тренировка сети происходит не на отдельных пользовательских устройствах, а на серверной инфраструктуре. При этом соблюдается защита пользовательских данных, то есть отследить отдельных пользователей или их фразы не получится. С устройства в сеть глубокого обучения отправляется запрос, на который будет выдан ответ. Конечно, пользователи вряд ли будут ждать несколько секунд, прежде чем система предложит варианты. Поэтому важную роль играют задержки, то есть длительность обработки запроса.

Deep Learning / Machine Learning

Natural Language Processing

NVIDIA Titan V

7 XX

9 XX

36 XX

61 XX

73 XX

91 XX

112 XX

задержка в мс

Меньше - лучше

Neural Machine Translation

Третья сфера – машинный перевод (Neural Machine Translation). Сети глубокого обучения дают более точный перевод с меньшим числом ошибок. Несколько лет назад машинный перевод осуществлялся с помощью сетей Recurrent Neural Network (RNN). Перевод с одного языка был пословный, что давало низкое качество. Улучшения появились с переходом на алгоритмы перевода фраз PBMT (phrase-based machine translation). В данном случае текст разделяется на слова и фразы. При этом анализируется и содержимое (тема) текста, что позволяет улучшить качество перевода. Алгоритмы PBMT знаменовали серьезное улучшение, но далеко не всегда давали убедительные результаты. Впрочем, такой перевод помогал разобрать, о чем говорится в тексте.

За последние годы значительную популярность приобрела технология Neural Machine Translation (NMT). Вместо разделения текста на слова и фразы, сейчас анализируется сразу весь текст. Изначально алгоритмы NMT работают на уровне PBMT, но со временем улучшаются благодаря машинному обучению или сетям глубокого обучения. Подобная тренировка выполняется при получении любой информации от пользователей. Например, Google обрабатывает 18 млн. запросов одного только перевода с английского на китайский. Видеокарта должна обрабатывать как можно больше предложений одновременно. Мы использовали соответствующую сеть Google, которая отвечала на запросы пользователей.

Deep Learning / Machine Learning

Neural Machine Translation

NVIDIA Titan V

523 XX

148 XX

118 XX

37 XX

28 XX

19 XX