Страница 2: NVIDIA GeForce GTX Titan X | Архитектура Maxwell и кристалл
NVIDIA изменила архитектуру SMM по сравнению с предыдущим поколением "Kepler", что позволило улучить соотношение производительности на ватт в два раза по сравнению с предыдущими видеокартами Titan. В архитектуре "Kepler" кластер SMX опирался на 192 потоковых процессора (ядра CUDA). Это приводило к тому, что логика управления 192 потоковыми процессорами была довольно сложная. С архитектурой "Maxwell" мультипроцессоры Maxwell streaming multiprocessor (переименованы в SMM) разделены на четыре блока по 32 потоковых процессора. В результате каждый SMM теперь опирается на 128 потоковых процессоров. Оптимизация логики управления позволила более эффективно распределять отдельные задачи по потоковым процессорам. В результате производительность одного потокового процессора оказалась на 35 процентов выше, чем у варианта "Kepler". Первыми GPU на основе новой архитектуры стали GM107, которые мы протестировали год назад в видеокартах GeForce GTX 750 и GTX 750 Ti (тест и обзор). Затем появились GPU GM204 и GM206, показавшие высокую эффективность как в топовых GeForce GTX 980 и GTX 970 (тест и обзор), так и видеокартах GeForce GTX 960 для массового рынка (тест и обзор), которые были выпущены недавно.
GPU GM200 в GeForce GTX Titan X является полной реализацией архитектуры "Maxwell". То есть чип содержит все запланированные структуры и конвейеры. Кроме 3.072 потоковых процессоров на кристалле имеется крупный кэш L2 на 3 Мбайт, который у GeForce GTX 980 составлял 2 Мбайт, а у GeForce GTX 970 из-за ограничений подсистемы памяти – только 1.792 кбайт. Пропускная способность кэша остаётся на уровне 512 байт на такт. По производительности с двойной точностью отличий нет, она составляет 1/32 от производительности с ординарной точностью 7 TFLOPS. В нынешней реализации "Maxwell" так и не появились выделенные блоки для работы с двойной точностью. На GTC 2015 должна появиться информация о возможных изменениях в будущем, например, в GPU GM210, но для геймеров это не так принципиально.
По сравнению с архитектурой Maxwell первого поколения была несколько увеличена общая память для каждого мультипроцессора SMM. Теперь она составляет уже 96 кбайт, а не 64 кбайт. Можно отметить и новый движок Polymorph Engine версии 3.0. Движок PolyMorph 3.0 отвечает за запросы текстур, тесселяцию, настройку атрибутов, трансформацию поля зрения и потоковый вывод. Результаты вычислений кластера SMM и движка PolyMorph 3.0 затем передаются на движок растеризации. На втором этапе тесселятор начинает расчеты позиций поверхностей, в зависимости от расстояния выбирается нужный уровень детализации. Скорректированные значения отсылаются на кластер SMM, где с ними работают доменные и геометрические шейдеры. Доменный шейдер рассчитывает финальную позицию каждого треугольника, учитывая данные Hull-шейдеров и тесселяторов. На данном этапе накладываются карты смещения. Геометрический шейдер затем сравнивает рассчитанные данные с действительно видимыми объектами и отсылает результаты обратно на движок тесселяции для окончательного расчета. На последнем этапе движок PolyMorph 3.0 выполняет трансформацию поля зрения и коррекцию перспективы. Наконец, рассчитанные данные выводятся через потоковый вывод, память освобождается для дальнейших расчетов. В данном процессе задействуются многочисленные функции рендеринга, о которых мы поговорим подробнее на страницах нашего обзора.
Перейдём к отдельным блокам мультипроцессора SMM. Каждый блок из 32 потоковых процессоров оснащен буфером инструкций и warp-планировщиком. Два блока диспетчеризации работают с 16.384 32-битными регистрами каждый. Если посмотреть на архитектуру "Kepler", то 192 потоковых процессора работали с четырьмя warp-планировщиками и восемью блоками диспетчеризации, всего было доступно 65.536 32-битных регистров. Теоретически на каждый потоковый процессор в архитектуре "Maxwell" приходятся 512 регистров, у "Kepler" их количество составляло около 341. Эта мера тоже способствовала приросту производительности потоковых процессоров до 35%. Также несколько изменилось соотношение между потоковыми процессорами и так называемыми специальными функциональными блоками (Special Function Units, SFU). В архитектуре "Kepler" соотношение составляло 6/1, в " Maxwell" оно снизилось до 4/1. То же самое касается и соотношения потоковых процессоров и блоков чтения/записи (Load/Store, LD/ST).
Графический процессор GeForce GTX Titan X опирается на архитектуру "Maxwell", поэтому многие функции мы уже рассматривали в обзорах GeForce GTX 980, GTX 970 и GTX 960. Мы не будем повторяться, рекомендуем прочитать следующие статьи по ссылкам:
- 256-битный контроллер и сжатие памяти
- DSR (Dynamic Super Resolution)
- MFAA (Multiframe Sampled Anti-Aliasing)
- VXGI (Voxel Global Illumination)
- DirectX 12
- GameWorks und PhysX
- VR Direct
- H.265 и стриминг 4K
GeForce GTX Titan X в профессиональном окружении
Предыдущие модели GeForce GTX Titan NVIDIA позиционировала также на использование в профессиональной сфере. Видеокарты позволяют сэкономить тем пользователям, кто может обойтись без некоторых функций драйверов Quadro и Tesla. Поэтому GeForce GTX Titan позволяет сэкономить профессионалам-одиночкам, но также компаниям и образовательным учреждениям. Примеров можно привести много, хотя NVIDIA не публикует конкретной информации о разделении между игровым и профессиональным сегментами.
Объём оперативной видеопамяти 12 Гбайт у GeForce GTX Titan X можно отнести к весомым преимуществам. Но поддержки ECC нет, так что дополнительная проверка целостности не производится. Кроме того, мы получаем прежнюю реализацию "Maxwell" без выделенных блоков работы с двойной точностью, отвечающих за соответствующие вычисления. NVIDIA указывает производительность с одинарной точностью 7 TFLOPS. Если учесть соотношение 24/1 для SP и DP, то мы получим производительность всего 291 GFLOPS.
Сравнение производительности SP и DP | ||
---|---|---|
Видеокарта | Производительность SP | Производительность DP |
GeForce GTX Titan X | 7 TFLOPS | 291 GFLOPS |
GeForce GTX Titan Z | 8,122 TFLOPS | 2.707 GFLOPS |
GeForce GTX Titan Black | 5,121 TFLOPS | 1.707 GFLOPS |
GeForce GTX Titan | 4,5 TFLOPS | 1.500 GFLOPS |
Quadro K6000 | 5,196 TFLOPS | 1.732 GFLOPS |
Tesla K40 | 4,291 TFLOPS | 1.430 GFLOPS |
Tesla K80 | 6,992 TFLOPS | 2,91 GFLOPS |
Radeon R9 290X | 5,632 TFLOPS | 320 GFLOPS |
Radeon R9 295X2 | 11,466 TFLOPS | 640 GFLOPS |
FirePro W9100 | 5,237 TFLOPS | 2618 GFLOPS |
Архитектура "Kepler" обеспечивала существенно больше. Так что GeForce GTX Titan (Black) и GeForce GTX Titan Z в данном отношении можно назвать более производительными. Если вам нужна высокая скорость работы вычислений с двойной точностью, то нынешнее поколение "Maxwell" вряд ли подойдёт. Но, как нам кажется, NVIDIA адаптирует свой дизайн в будущем, на рынок будет представлен GPU GM210. Возможно, на GTC 2015 мы узнаем подробности. NVIDIA может дать дополнительную информацию об использовании GeForce GTX Titan X в профессиональном окружении.
На скриншоте GPU-Z мы видим подтверждение спецификациям. Но поскольку видеокарта отсутствует в базе данных утилиты, то частоты немного отличаются из-за некорректного распознавания делителей.
Сравнение температур и тактовых частот | ||
---|---|---|
Игра | Температура | Частота |
The Elder Scrolls V Skyrim | 82 °C | 1.164 МГц |
Company of Heroes | 83 °C | 1.151 МГц |
Grid 2 | 82 °C | 1.151 МГц |
Metro: Last Light | 83 °C | 1.126 МГц |
Crysis 3 | 82 °C | 1.151 МГц |
Battlefield 4 | 83 °C | 1.138 МГц |
Bioshock: Infinite | 82 °C | 1.164 МГц |
Tomb Raider | 83 °C | 1.151 МГц |
Как обычно, мы проверили работу видеокарты на практике, поскольку технологии GPU Boost и PowerTune от AMD регулируют тактовые частоты в зависимости от разных условий. Для GeForce GTX Titan X частота упирается в предельную температуру. Её NVIDIA выставила на уровне 83 °C. Если видеокарта доберётся до подобной планки, то частота автоматически снижается, чтобы температура не была превышена. В большинстве тестов мы подбирались к подобной планки после предварительного прогрева видеокарты, поэтому в таблице приведены разные результаты. Мы получили частоты от 1.126 МГц до 1.164 МГц. NVIDIA указывает частоту Boost на уровне 1.075 МГц, так что мы получили, по крайней мере, 50-МГц прирост по сравнению с минимальной заявленной планкой NVIDIA.
Предельная планка энергопотребления 250 Вт проблем не вызывает. С помощью утилит мы определяли процент использования TDP – мы получили 90-95% при срабатывании температурного ограничения. С помощью увеличения скорости вентилятора или повышения температурного порога мы смогли добиться увеличения частоты GPU до 1.177 МГц без каких-либо специальных мер разгона.