Страница 1: Тест и обзор: NVIDIA Titan V – архитектура Volta в играх

На прошлой неделе NVIDIA приготовила для нас еще один сюрприз, объявив новую видеокарту NVIDIA Titan V. А именно первую модель на новой архитектуре Volta для потребительского рынка, которая может заинтересовать и геймеров. Хотя видеокарта все же нацелена на профессиональны пользователей. Видеокарта за 3.100 евро поступила в нашу тестовую лабораторию, будет интересно посмотреть на ее результаты в играх.

По NVIDIA Titan V хорошо видно стратегию NVIDIA на 2018 год. Мы уже неоднократно отмечали, что в будущем NVIDIA будет следовать двумя путями – профессиональный сегмент получит собственные вычислительные ускорители, а для геймеров NVIDIA представит оптимизированные или упрощенные GPU. Архитектура Volta как раз следует первому пути, в играх многие архитектурные функции Volta просто не нужны. В любом случае, прогресс по потоковым процессорами и памяти оказался весьма существенным.

Весной NVIDIA представила видеокарту GeForce GTX 1080 Ti, как раз через 12 месяцев после появления архитектуры Pascal в видеокартах GeForce. Конечно, видеокарту GeForce GTX 1070 Ti можно назвать переходной моделью на пути к новой архитектуре, но NVIDIA за последние 24 месяца предлагала геймерам только одну архитектуру, пусть и с разными вариантами реализации. NVIDIA была вполне довольна архитектурой Pascal, которая используется на всех уровнях производительности, от low-end до high-end. Однако некоторые геймеры начали сетовать на застой, ожидая от NVIDIA новых сильных шагов.

Архитектура Volta была представлена на конференции GPU Technology Conference весной. Ускорители Tesla V100 наши свое применение в суперкомпьютерах. Но следует учитывать огромный размер GPU, его сложность и тот факт, что от многих компонентов GPU, тех же блоков FP64 или Tensor Cores, геймер не выиграет. Поэтому данный GPU вряд ли выйдет на видеокартах GeForce. Также он сопровождается дорогой памятью HBM2, которая по доле выхода годных кристаллов и частотам не оправдала первоначальных планов.

На GTC 2017 NVIDIA рассказала об улучшениях потоковых процессоров, что само по себе должно обеспечить прирост производительности. GPU GV100 оснащен 5.120 потоковыми процессорами, что на 43% больше, чем у GPU GP102 видеокарты GeForce GTX 1080 Ti. Память HBM2 с пропускной способностью 653 Гбайт/с вряд ли будет ограничивать вычислительную производительность.

Конечно, нам было интересно оценить производительность NVIDIA Titan V в играх. Пусть даже видеокарта стоит около 3.100 евро, но она позволит пролить свет на то, что можно ожидать в 2018 году. Уже появились слухи о том, что грядущая архитектура GPU от NVIDIA будет называться Ampere. Она вновь будет ориентирована на видеокарты GeForce. Но Ampere вряд ли станет полностью новой разработкой. Вполне возможно, что мы получим ту же архитектуру Volta без блоков, ориентированных на вычислительную/научную сферу. И с памятью GDDR5X или GDDR6. С данной точки зрения Titan V можно считать окном в будущее.

Обзор технических спецификаций NVIDIA Titan V
Модель: NVIDIA Titan V
Цена: 3.100 евро
Сайт производителя: NVIDIA
Техническая информация
GPU: GV100
Техпроцесс: 12 нм
Число транзисторов: 21,1 млрд.
Тактовая частота GPU (базовая): 1.200 МГц
Тактовая частота GPU (Boost) 1.455 МГц
Частота памяти 1.850 МГц
Тип памяти HBM2
Объём памяти 12 GB
Ширина шины памяти 3.072 бит
Пропускная способность памяти 652,8 Гбайт/с
Версия DirectX: 12
Потоковые процессоры: 5.120
Текстурные блоки: 320
Конвейеры растровых операций (ROP): 96
Типичное энергопотребление: 250 Вт
SLI/CrossFire -

Подобно многим предыдущим архитектурам, в том числе Pascal, чип Volta GV100 состоит из кластеров Graphics Processing Clusters (GPCs), Texture Processing Clusters (TPCs), Streaming Multiprocessors (SMs) и контроллера памяти. GPU GV100 оснащен шестью GPCs, 84 Volta SMs, 42 TPCs (один на два SMs) и восемью 512-битными контроллерами памяти (4.096 бит в сумме). Каждый SM имеет 64 ядра FP32, 64 ядра INT32, 32 ядра FP64 и восемь новых ядер Tensor. Также каждый SM содержит четыре текстурных блока.

Но NVIDIA пока не использует полную версию чипа ни для Tesla V100, ни для Titan V. Активны 80 Volta SMs, что как раз дает 5.120 потоковых процессоров. Также отметим 2.560 блоков FP64, а привычные потоковые процессоры теперь называются FP32. Для сферы глубокого обучения будут полезны 640 ядер Tensor, которые выполняют вычисления INT8. Для процесса тренировки сетей глубокого обучения наиболее важны операции матричного умножения (BLAS GEMM), именно на них ориентированы ядра Tensor. У ядер Tensor в SM имеются собственные пути передачи данных, их также можно полностью выключать с помощью стробирования частоты, если ядра не требуются. Каждое ядро Tensor может обрабатывать матрицу 4 x 4 x 4 в виде D = A x B + C. Входные матрицы A и B относятся к типу FP16, для сложения может использоваться матрица FP16 или FP32. Каждое ядро Tensor выполняет 64 операции FMA со смешанной точностью за такт – каждая такая операция может содержать умножение и сложение. В итоге восемь ядер Tensor на SM обеспечивают производительность 1.024 операций с плавающей запятой за такт.

Каждый стек памяти HBM2 подключен к двум контроллерам памяти. В общей сложности GPU GV100 оснащен восемью 512-битными контроллерами памяти. Но в случае Titan V активны только шесть контроллеров, то есть ширина интерфейса памяти составляет 3.072 бита. В результате объем памяти составляет 12 Гбайт HBM2, частота 850 МГц, пропускная способность 652,8 Гбайт/с. NVIDIA использует три стека HBM2 вместо четырех. Не совсем понятно, является ли такая конфигурация следствием одного дефектного стека. Или NVIDIA просто адресует два стека из четырех с половинной емкостью. Отметим 768 кбайт кэша L2 у каждого контроллера, причем с одним стеком HBM2 работают два контроллера. Таким образом, у GPU GV100 кэш L2 в нашем случае составляет 4.608 кбайт (6.144 кбайт у полной версии).

NVIDIA внесла изменения в дизайн потоковых мультипроцессоров, которые имеют мало общего с предыдущими поколениями Maxwell и Pascal. Впрочем, все эти изменения связаны с одним: с увеличением вычислительной производительности. Если SMs в GP100 GPU (Pascal) состоят из двух вычислительных блоков, каждый с 32 ядрами FP32, 16 ядрами FP64, буфером инструкций, диспетчером warp, двумя блоками распределения и 128-кбайт файлом регистров, в случае архитектуры Volta мы получили заметные изменения. SM в составе GPU GV100 разделены уже на четыре вычислительных блока. Каждый состоит из 16 ядер FP32, 8 ядер FP64, 16 ядер INT32, двух новых ядер Tensor со смешанной точностью, нового кэша инструкций L0, диспетчера warp, блока распределения и 64-кбайт файла регистров. В отличие от архитектуры Pascal, которая не допускала одновременное выполнение инструкций FP32 и INT32, в случае Volta одновременное выполнение возможно благодаря отдельным блокам в SM, что тоже увеличивает вычислительную производительность.

Поскольку NVIDIA фокусировалась на вычисления на GPU, влияние архитектурных изменений на игровую производительность оценить сложно. Свежий драйвер GeForce поддерживает Titan V на архитектуре Volta, но оптимизации в нем наверняка не такие существенные. В любом случае, будет интересно оценить прирост производительности, связанный не только с увеличением числа потоковых процессоров.

Скриншоты GPU-Z подтверждают технические спецификации NVIDIA Titan V. Ниже представлены тактовые частоты GPU под нагрузкой.

Сравнение температур и тактовых частот
Игра Температура Частота
The Witcher 3: Wild Hunt 84 °C 1.719 МГц
Rise of the Tomb Raider 84 °C 1.706 МГц
Hitman 84 °C 1.706 МГц
Far Cry Primal 84 °C 1.719 МГц
DiRT Rally 84 °C 1.740 МГц
Anno 2205 84 °C 1.719 МГц
The Division 84 °C 1.740 МГц
Fallout 4 84 °C 1.719 МГц
DOOM 84 °C 1.740 МГц

Эталонный кулер NVIDIA нам хорошо знаком. Неудивительно, что Titan V всегда упирается в ограничения по температуре. Подобную картину мы уже встречали с видеокартой GeForce GTX 1080 Ti, да и Titan Xp не могла полностью раскрыть потенциал производительности. Тем более что вентилятор не пытается снизить температуру, под полной нагрузкой скорость вращения составила всего 2.375 об/мин. Однако вместо заявленной частоты Boost 1.455 МГц мы получаем существенно более высокие частоты от 1.706 до 1.740 МГц.