Страница 1: Обзор GeForce RTX 20: архитектура Turing с RTX, трассировкой лучей и новыми функциями

turing-gpuИ вот настал день, когда NVIDIA снимает завесу тайны с новой линейки GeForce RTX 20. К сожалению, не полностью. В данной статье мы поговорим об архитектуре Turing и всех улучшениях, которые она содержит. В том числе обсудим аппаратную поддержку трассировки лучей и RTX. Тесты GeForce RTX 2080 и GeForce RTX 2080 Ti мы сможем опубликовать лишь через несколько дней. А именно в среду вы узнаете подробности производительности GeForce RTX 2080 и GeForce RTX 2080 Ti.

Для NVIDIA выход архитектуры Turing является следующим крупным шагом на пути эволюции видеокарт, который можно сравнить с появлением первых потоковых процессоров. Впрочем, после публикации технических спецификаций первых трех видеокарт (GeForce RTX 2080 Ti, GeForce RTX 2080 и GeForce RTX 2070), демонстрации первых реализаций RTX и, самое главное, объявлении цен возникли вопросы о том, оправдывают ли преимущества технологии столь высокую цену?

NVIDIA с архитектурой Turing меняет подход к своим продуктам. Проблема "курицы и яйца" теперь решается просто - добавлением аппаратной поддержки, а также опорой на крупных игровых разработчиков. Основатель NVIDIA за минувшие недели не раз подчеркивал, что трассировка лучей является одним из самых важных шагов за последние годы. Она позволяет перенести технологию освещения на новый уровень. Напомним, что трассировка лучей симулирует прохождение как можно большего числа лучей света на сцене. Что позволяет реалистично вывести отражения, преломления, рассеивание света, тени, поглощение, полупрозрачные материалы и многое другое.

Но как работает трассировка лучей? В принципе, данную технологию нельзя назвать новой. Причем ускорители трассировки лучей тоже входили на рынок, например, R2500 и R2100 от Imagination Technologies в 2016 году. Компания до сих пор разрабатывает данную концепцию для своей архитектуры PowerVR, но также и для других сфер.

Но можно обратиться к еще более ранней истории, поскольку трассировка лучей на сцене выполнялась еще в 1980 году. Тогда компьютеру VAX 11/780 потребовалось больше часа на обработку картинки 512 x 512 пикселей. Но даже в 2018 году трассировка лучей в реальном времени по-прежнему невозможна. Из препятствий можно отметить не только универсальный дизайн и функциональность классического конвейера рендеринга. Сегодня для наложения трассировки лучей на полную сцену требуется производительность в несколько петафлопов. И с учетом нынешнего развития технологий до такого уровня уйдет еще лет десять.

Поэтому NVIDIA с архитектурой Turing решила представить трассировку лучей с аппаратным ускорением, которая опирается на дополнительные ресурсы GPU. Сочетание новой архитектуры (Turing SM), знакомых ядер Tensor, новых ядер RT и новых технологий шейдинга позволяет добиться гибридного рендеринга. То есть основой остается классический рендеринг с растеризацией, но он поддерживает дополнительные технологии, в том числе трассировку лучей для расчета освещения, теней, отражений и других эффектов.

Новые видеокарты

Но перейдем к новым видеокартам GeForce RTX 2080 и GeForce RTX 2080 Ti. О младшей GeForce RTX 2070 мы детально поговорим в момент ее официального анонса. Пока что ограничимся двумя первыми моделями.

GeForce RTX 2080 Ti содержит 4.352 потоковых процессора, у GeForce RTX 2080 и GeForce RTX 2070 мы получаем уже меньше - 2.944 и 2.302, соответственно. Если ориентироваться на спецификации ядер Tensor и RT для полной версии GPU TU102, можно высчитать соответствующие показатели для GeForce RTX 2080 Ti, GeForce RTX 2080 и GeForce RTX 2070 - NVIDIA до сих пор не стала официально объявлять количество ядер Tensor и RT.

Соответственно, потоковые кластеры SM GPU состоят из 32, 64 или даже 128 потоковых процессоров. Блок SM (Streaming Multiprocessor) архитектуры Pascal содержал 128 потоковых процессоров, для архитектуры Volta NVIDIA изменила структуру на 64 потоковых процессора на кластер SM. Поскольку архитектура Turing наверняка базируется на Volta, а не на Pascal, можно ожидать 64 потоковых процессора на SM и в случае Turing. Что хорошо сочетается с числом ядер Tensor на SM. В архитектуре Volta мы получаем восемь ядер Tensor на кластер SM - как и в случае Turing.

Технические спецификации GeForce RTX 2080 Ti, RTX 2080 и RTX 2070
Модель GeForce RTX 2080 Ti GeForce RTX 2080 GeForce RTX 2070
Цена 95.990 руб.
1.259 евро
63.990 руб.
849 евро
47.990 руб.
639 евро
Технические спецификации
Архитектура Turing Turing Turing
GPU TU102 TU104 TU106
Техпроцесс TSMC 12 нм TSMC 12 нм TSMC 12 нм
Число транзисторов 18,6 млрд. 13,6 млрд. 10,8 млрд.
Площадь кристалла 754 мм² 545 мм² 445 мм²
Потоковые процессоры 4.352 2.944 2.304
Тензорные ядра 544 368 288
Ядра RT 68 46 36
Текстурные блоки 272 184 144
Геометрические блоки 34 23 18
ROPs 88 64 64
Частота GPU (базовая) 1.350 МГц 1.515 МГц 1.410 МГц
Частота GPU (Boost) 1.635 МГц 1.800 МГц 1.710 МГц
RTX-OPS 78 TRTX-OPS 60 TRTX-OPS 45 TRTX-OPS
Гигалучей/с 10 Глуч/с 8 Глуч/с 6 Глуч/с
Частота памяти 1.750 МГц 1.750 МГц 1.750 МГц
Тип памяти GDDR6 GDDR6 GDDR6
Объем памяти 11 GB 8 GB 8 GB
Ширина шины памяти 352 бит 256 бит 256 бит
Пропускная способность 616 Гбайт/с 448 Гбайт/с 448 Гбайт/с
TDP 260 Вт 225 Вт 185 Вт
Доп. питание 2x 8-конт. 1x 8-конт. + 1x 6-конт. 1x 8-конт.
SLI/NVLink 2x NVLink 1x NVLink -

Теперь перейдем к ранее неизвестному элементу архитектуры Turing - ядрам RT. На 4.608 потоковых процессора указано 72 ядра RT, то есть можно сделать вывод об одном ядре RT на кластер SM (4.608 потоковых процессоров / 64 = 72 кластеров SM = 72 ядра RT). Кстати 72 кластера SM x 8 ядра Tensor = 576 ядра Tensor в полной конфигурации.

Также мы знаем и число текстурных блоков на кластер SM - четыре, как и в архитектуре Volta. Для интерфейса памяти расчет аналогичен архитектуре Pascal: интерфейс памяти разбит на 32-битные блоки. NVIDIA отключила один блок из 384 у полной версии GPU TU102, поэтому мы получаем 352-битный интерфейс GeForce RTX 2080 Ti. К каждому 32-битному блоку подключен свой чип памяти. 352/32 бита = 11 каналов или 11 чипов GDDR6. Для GeForce RTX 2080 и GeForce RTX 2070 мы получаем 256/32 бита = 8 каналов или 8 чипов GDDR6. К каждому 32-битному блоку подключены восемь растровых конвейеров ROP.