Hardwareluxx > Статьи > Железо > Видеокарты > Обзор GeForce RTX 20: архитектура Turing с RTX, трассировкой лучей и новыми функциями

Обзор GeForce RTX 20: архитектура Turing с RTX, трассировкой лучей и новыми функциями

Опубликовано: 15.09.2018 в 18:36 Андрей Шиллинг

Страница 12: TSMC и 12-нм техпроцесс - производство GPU Turing

На разработку архитектуры Volta NVIDIA затратила больше $2 млрд. В случае архитектуры Turing затраты такие же или даже выше. NVIDIA утверждает, что на разработку архитектуры ушло пять лет. А первые наработки в сфере аппаратного ускорения были начаты еще 10 лет назад. Первые кристаллы были получены около года назад. Причем в течении 24 часов инженерные образцы уже работали на тестовых платах - довольно редкий случай, как утверждает NVIDIA.

GPU на архитектуре Turing оказались самыми крупными, когда-либо устанавливавшимися на игровые видеокарты. NVIDIA пока не перешла на 7-нм техпроцесс, поскольку он еще не готов. Но компания использовала наработки, полученные при производстве GPU Volta по 12-нм техпроцессу. GPU GV100, представленный в мае 2017, довольно крупный - 815 мм². Он содержит 21,1 млрд. транзисторов. GPU GP102 на GeForce GTX 1080 Ti заметно меньше по размеру - 471 мм² и 12 млрд. транзисторов.

Крупный GPU Turing (TU102) ненамного уступает. NVIDIA также производит чип по 12-нм техпроцессу на мощностях TSMC. Число транзисторов составляет 18,6 млрд. NVIDIA указывает размер GPU 754 мм². В случае Turing GPU TU104 среднего размера мы получаем 13,6 млрд. транзисторов на площади 545 мм². Младшая видеокарта GeForce RTX 270 опирается на TU106 GPU с 10,8 млрд. транзисторов площадью 445 мм².

Как обычно, NVIDIA не предоставляет информации о выходе годных кристаллов при производстве столь крупных чипов. Поскольку GPU Volta производится на конвейере уже больше года, NVIDIA вместе с TSMC наверняка накопила опыт.

Технические спецификации GeForce RTX 2080 Ti, RTX 2080 und RTX 2070
Технические спецификации
Модель	GeForce RTX 2080 Ti	GeForce RTX 2080	GeForce RTX 2070
GPU	TU102	TU104	TU106
Архитектура	Turing	Turing	Turing
Техпроцесс	TSMC 12 нм	TSMC 12 нм	TSMC 12 нм
Число транзисторов	18,6 млрд.	13,6 млрд.	10,8 млрд.
Площадь кристалла	754 мм²	545 мм²	445 мм²
GPCs	6	6	3
TPCs	34	23	18
SMs	68	46	36
CUDA Cores / SM	64	64	64
CUDA Cores / GPU	4.352	2.944	2.304
Tensor Cores / SM	8	8	8
Tensor Cores / GPU	544	368	288
Ядра RT	68	46	36
Кэш L2	5.632 кбайт	4.096 кбайт	4.096 кбайт
Register File Size / SM	256 кбайт	256 кбайт	256 кбайт
Register File Size / GPU	17.408 кбайт	11.776 кбайт	9.216 кбайт

TU102 GPU опирается на шесть кластеров Graphics Processing Clusters (GPC), 36 кластеров Texture Processing Clusters (TPC) и 72 Streaming Multiprocessors (SM). Но чип в GeForce RTX 2080 Ti имеет только 34 активных TPC. Каждый GPC содержит растровый движок и шесть TPC, каждый TPC - два SM. Наконец, в каждом SM работают 64 текстурных блока, восемь ядер Tensor, имеются 256 кбайт регистров, четыре текстурных блока и 96 кбайт памяти L1/Shared.

TU104 GPU оснащен шестью GPC, но только 24 TPC и 48 SM. Один TPC на GeForce RTX 2080 выключен, поэтому мы получаем не 3.072 потоковых процессоров, а только 2.944.

Самый младший чип Turing на сегодня, а именно TU106, оснащен тремя GPC, 18 TPC и 36 SM в полной конфигурации. NVIDIA для видеокарты GeForce RTX 2070 использовала полную версию, в случае TU102 и TU104 GPU полная версия встречается только на видеокартах Quadro RTX.

Интересно сравнить размеры чипов с поколением Pascal.

Сравнение размеров кристаллов Pascal и Turing
Чип	TU102	GP100	GP102	TU104	GP104	TU106	GP106
Площадь кристалла	754 мм²	610 мм²	471 мм²	545 мм²	314 мм²	445 мм²	200 мм²
Количество транзисторов	18,6 млрд.	15,3 млрд.	12 млрд.	13,6 млрд.	7,2 млрд.	10,8 млрд.	4,4 млрд.

Самый крупный GPU Pascal GP102 на видеокартах GeForce (GeForce GTX 1080 Ti и Titan Xp) имеет площадь 471 мм² и содержит 12 млрд. транзисторов. При этом он все равно уступает по размерам и числу транзисторов TU104 на GeForce RTX 2080, причем даже TU106 на GeForce RTX 2070 ненамного меньше. Что еще раз подчеркивает позиционирование новых видеокарт, GeForce RTX 2080 Ti не только по цене ближе к ранее выпущенным моделям Titan. TU104 GPU и видеокарта GeForce RTX 2080 примерно соответствует уровню GeForce GTX 1080 Ti. А "младший" Turing GPU TU106 уже нельзя назвать решением начального уровня, причем не только из-за цены.

Вычислительная производительность в числах

Разные варианты GPU приводят к разной вычислительной производительности. До сих пор мы упоминали гигалучи в секунду, а также 110 TFLOPS FP16, 220 TOPS INT8 и 440 TOPS INT4. Но GPU TU102 содержит 144 блока FP64 - по два на SM. Производительность FP64 по отношению к FP32 составляет 1/32, хотя у архитектуры Volta она равна 1/2. Впрочем, NVIDIA все равно добавила и в архитектуру Turing блоки FP64, чтобы поддержка вычислений была хотя бы на базовом уровне.

Ниже приведены результаты вычислительной производительности видеокарт GeForce RTX 20 Founders Edition.

Вычислительная производительность GeForce RTX 2080 Ti, RTX 2080 и RTX 2070
Вычислительная производительность
Модель	GeForce RTX 2080 Ti	Quadro RTX 6000	GeForce RTX 2080	Quadro RTX 5000	GeForce RTX 2070
GPU	TU102	TU102	TU104	TU104	TU106
FP32 TFLOPS	14,2	16,3	10,6	11,2	7,9
INT32 TIPS	14,2	16,3	10,6	11,2	7,9
FP64 TFLOPS	0,445	0,510	0,331	0,348	0,246
FP16 TFLOPS	28,5	32,6	21,2	22,3	15,8
FP16 Tensor TFLOPS с умножением FP16	113,8	130,5	84,8	89,2	63
FP16 Tensor TFLOPS с умножением FP32	56,9	130,5	42,4	89,2	31,5
INT8 Tensor TOPS	227,7	261	169,6	178,4	126
INT4 Tensor TOPS	455,4	522	339,1	356,8	252,1

Quadro RTX 8000 опирается на тот же GPU TU102, но объем памяти GDDR6 составляет в два раза выше, поэтому мы не стали добавлять видеокарту в таблицу. Производительность зависит от тактовых частот и варианта расширения GPU. Видеокарты Quadro RTX могут выполнять больше операций умножения на ядрах Tensor, поэтому мы получаем в два раза более высокую производительность по сравнению с игровыми моделями GeForce.

<> Новый движок видео и дисплея + VisualLink
Впечатления - GeForce RTX 2080 Ti