Страница 2: NVIDIA GeForce GTX Titan X | Архитектура Maxwell и кристалл

 

NVIDIA изменила архитектуру SMM по сравнению с предыдущим поколением "Kepler", что позволило улучить соотношение производительности на ватт в два раза по сравнению с предыдущими видеокартами Titan. В архитектуре "Kepler" кластер SMX опирался на 192 потоковых процессора (ядра CUDA). Это приводило к тому, что логика управления 192 потоковыми процессорами была довольно сложная. С архитектурой "Maxwell" мультипроцессоры Maxwell streaming multiprocessor (переименованы в SMM) разделены на четыре блока по 32 потоковых процессора. В результате каждый SMM теперь опирается на 128 потоковых процессоров. Оптимизация логики управления позволила более эффективно распределять отдельные задачи по потоковым процессорам. В результате производительность одного потокового процессора оказалась на 35 процентов выше, чем у варианта "Kepler". Первыми GPU на основе новой архитектуры стали GM107, которые мы протестировали год назад в видеокартах GeForce GTX 750 и GTX 750 Ti (тест и обзор). Затем появились GPU GM204 и GM206, показавшие высокую эффективность как в топовых GeForce GTX 980 и GTX 970 (тест и обзор), так и видеокартах GeForce GTX 960 для массового рынка (тест и обзор), которые были выпущены недавно.

GPU GM200 в GeForce GTX Titan X является полной реализацией архитектуры "Maxwell". То есть чип содержит все запланированные структуры и конвейеры. Кроме 3.072 потоковых процессоров на кристалле имеется крупный кэш L2 на 3 Мбайт, который у GeForce GTX 980 составлял 2 Мбайт, а у GeForce GTX 970 из-за ограничений подсистемы памяти – только 1.792 кбайт. Пропускная способность кэша остаётся на уровне 512 байт на такт. По производительности с двойной точностью отличий нет, она составляет 1/32 от производительности с ординарной точностью 7 TFLOPS. В нынешней реализации "Maxwell" так и не появились выделенные блоки для работы с двойной точностью. На GTC 2015 должна появиться информация о возможных изменениях в будущем, например, в GPU GM210, но для геймеров это не так принципиально.

Blockdiagramm der GM200-GPU
Диаграмма GPU GM200

По сравнению с архитектурой Maxwell первого поколения была несколько увеличена общая память для каждого мультипроцессора SMM. Теперь она составляет уже 96 кбайт, а не 64 кбайт. Можно отметить и новый движок Polymorph Engine версии 3.0. Движок PolyMorph 3.0 отвечает за запросы текстур, тесселяцию, настройку атрибутов, трансформацию поля зрения и потоковый вывод. Результаты вычислений кластера SMM и движка PolyMorph 3.0 затем передаются на движок растеризации. На втором этапе тесселятор начинает расчеты позиций поверхностей, в зависимости от расстояния выбирается нужный уровень детализации. Скорректированные значения отсылаются на кластер SMM, где с ними работают доменные и геометрические шейдеры. Доменный шейдер рассчитывает финальную позицию каждого треугольника, учитывая данные Hull-шейдеров и тесселяторов. На данном этапе накладываются карты смещения. Геометрический шейдер затем сравнивает рассчитанные данные с действительно видимыми объектами и отсылает результаты обратно на движок тесселяции для окончательного расчета. На последнем этапе движок PolyMorph 3.0 выполняет трансформацию поля зрения и коррекцию перспективы. Наконец, рассчитанные данные выводятся через потоковый вывод, память освобождается для дальнейших расчетов. В данном процессе задействуются многочисленные функции рендеринга, о которых мы поговорим подробнее на страницах нашего обзора.

Перейдём к отдельным блокам мультипроцессора SMM. Каждый блок из 32 потоковых процессоров оснащен буфером инструкций и warp-планировщиком. Два блока диспетчеризации работают с 16.384 32-битными регистрами каждый. Если посмотреть на архитектуру "Kepler", то 192 потоковых процессора работали с четырьмя warp-планировщиками и восемью блоками диспетчеризации, всего было доступно 65.536 32-битных регистров. Теоретически на каждый потоковый процессор в архитектуре "Maxwell" приходятся 512 регистров, у "Kepler" их количество составляло около 341. Эта мера тоже способствовала приросту производительности потоковых процессоров до 35%. Также несколько изменилось соотношение между потоковыми процессорами и так называемыми специальными функциональными блоками (Special Function Units, SFU). В архитектуре "Kepler" соотношение составляло 6/1, в " Maxwell" оно снизилось до 4/1. То же самое касается и соотношения потоковых процессоров и блоков чтения/записи (Load/Store, LD/ST).

Графический процессор GeForce GTX Titan X опирается на архитектуру "Maxwell", поэтому многие функции мы уже рассматривали в обзорах GeForce GTX 980, GTX 970 и GTX 960. Мы не будем повторяться, рекомендуем прочитать следующие статьи по ссылкам:

- 256-битный контроллер и сжатие памяти
- DSR (Dynamic Super Resolution)
- MFAA (Multiframe Sampled Anti-Aliasing)
- VXGI (Voxel Global Illumination)
- DirectX 12
- GameWorks und PhysX
- VR Direct
- H.265 и стриминг 4K

GeForce GTX Titan X в профессиональном окружении

Предыдущие модели GeForce GTX Titan NVIDIA позиционировала также на использование в профессиональной сфере. Видеокарты позволяют сэкономить тем пользователям, кто может обойтись без некоторых функций драйверов Quadro и Tesla. Поэтому GeForce GTX Titan позволяет сэкономить профессионалам-одиночкам, но также компаниям и образовательным учреждениям. Примеров можно привести много, хотя NVIDIA не публикует конкретной информации о разделении между игровым и профессиональным сегментами.

Объём оперативной видеопамяти 12 Гбайт у GeForce GTX Titan X можно отнести к весомым преимуществам. Но поддержки ECC нет, так что дополнительная проверка целостности не производится. Кроме того, мы получаем прежнюю реализацию "Maxwell" без выделенных блоков работы с двойной точностью, отвечающих за соответствующие вычисления. NVIDIA указывает производительность с одинарной точностью 7 TFLOPS. Если учесть соотношение 24/1 для SP и DP, то мы получим производительность всего 291 GFLOPS.

Сравнение производительности SP и DP
Видеокарта Производительность SP Производительность DP
GeForce GTX Titan X 7 TFLOPS 291 GFLOPS
GeForce GTX Titan Z 8,122 TFLOPS 2.707 GFLOPS
GeForce GTX Titan Black 5,121 TFLOPS 1.707 GFLOPS
GeForce GTX Titan 4,5 TFLOPS 1.500 GFLOPS
Quadro K6000 5,196 TFLOPS 1.732 GFLOPS
Tesla K40 4,291 TFLOPS 1.430 GFLOPS
Tesla K80 6,992 TFLOPS 2,91 GFLOPS
Radeon R9 290X 5,632 TFLOPS 320 GFLOPS
Radeon R9 295X2 11,466 TFLOPS 640 GFLOPS
FirePro W9100 5,237 TFLOPS 2618 GFLOPS

Архитектура "Kepler" обеспечивала существенно больше. Так что GeForce GTX Titan (Black) и GeForce GTX Titan Z в данном отношении можно назвать более производительными. Если вам нужна высокая скорость работы вычислений с двойной точностью, то нынешнее поколение "Maxwell" вряд ли подойдёт. Но, как нам кажется, NVIDIA адаптирует свой дизайн в будущем, на рынок будет представлен GPU GM210. Возможно, на GTC 2015 мы узнаем подробности. NVIDIA может дать дополнительную информацию об использовании GeForce GTX Titan X в профессиональном окружении.

Скриншот GPU-Z видеокарты GeForce GTX Titan X
Скриншот GPU-Z видеокарты GeForce GTX Titan X

На скриншоте GPU-Z мы видим подтверждение спецификациям. Но поскольку видеокарта отсутствует в базе данных утилиты, то частоты немного отличаются из-за некорректного распознавания делителей.

Сравнение температур и тактовых частот
Игра Температура Частота
The Elder Scrolls V Skyrim 82 °C 1.164 МГц
Company of Heroes 83 °C 1.151 МГц
Grid 2 82 °C 1.151 МГц
Metro: Last Light 83 °C 1.126 МГц
Crysis 3 82 °C 1.151 МГц
Battlefield 4 83 °C 1.138 МГц
Bioshock: Infinite 82 °C 1.164 МГц
Tomb Raider 83 °C 1.151 МГц

Как обычно, мы проверили работу видеокарты на практике, поскольку технологии GPU Boost и PowerTune от AMD регулируют тактовые частоты в зависимости от разных условий. Для GeForce GTX Titan X частота упирается в предельную температуру. Её NVIDIA выставила на уровне 83 °C. Если видеокарта доберётся до подобной планки, то частота автоматически снижается, чтобы температура не была превышена. В большинстве тестов мы подбирались к подобной планки после предварительного прогрева видеокарты, поэтому в таблице приведены разные результаты. Мы получили частоты от 1.126 МГц до 1.164 МГц. NVIDIA указывает частоту Boost на уровне 1.075 МГц, так что мы получили, по крайней мере, 50-МГц прирост по сравнению с минимальной заявленной планкой NVIDIA.

Предельная планка энергопотребления 250 Вт проблем не вызывает. С помощью утилит мы определяли процент использования TDP – мы получили 90-95% при срабатывании температурного ограничения. С помощью увеличения скорости вентилятора или повышения температурного порога мы смогли добиться увеличения частоты GPU до 1.177 МГц без каких-либо специальных мер разгона.