Страница 12: TSMC и 12-нм техпроцесс - производство GPU Turing

На разработку архитектуры Volta NVIDIA затратила больше $2 млрд. В случае архитектуры Turing затраты такие же или даже выше. NVIDIA утверждает, что на разработку архитектуры ушло пять лет. А первые наработки в сфере аппаратного ускорения были начаты еще 10 лет назад. Первые кристаллы были получены около года назад. Причем в течении 24 часов инженерные образцы уже работали на тестовых платах - довольно редкий случай, как утверждает NVIDIA.

GPU на архитектуре Turing оказались самыми крупными, когда-либо устанавливавшимися на игровые видеокарты. NVIDIA пока не перешла на 7-нм техпроцесс, поскольку он еще не готов. Но компания использовала наработки, полученные при производстве GPU Volta по 12-нм техпроцессу. GPU GV100, представленный в мае 2017, довольно крупный - 815 мм². Он содержит 21,1 млрд. транзисторов. GPU GP102 на GeForce GTX 1080 Ti заметно меньше по размеру - 471 мм² и 12 млрд. транзисторов.

Крупный GPU Turing (TU102) ненамного уступает. NVIDIA также производит чип по 12-нм техпроцессу на мощностях TSMC. Число транзисторов составляет 18,6 млрд. NVIDIA указывает размер GPU 754 мм². В случае Turing GPU TU104 среднего размера мы получаем 13,6 млрд. транзисторов на площади 545 мм². Младшая видеокарта GeForce RTX 270 опирается на TU106 GPU с 10,8 млрд. транзисторов площадью 445 мм².

Как обычно, NVIDIA не предоставляет информации о выходе годных кристаллов при производстве столь крупных чипов. Поскольку GPU Volta производится на конвейере уже больше года, NVIDIA вместе с TSMC наверняка накопила опыт.

Технические спецификации GeForce RTX 2080 Ti, RTX 2080 und RTX 2070
Модель GeForce RTX 2080 Ti GeForce RTX 2080 GeForce RTX 2070
GPU TU102 TU104 TU106
Технические спецификации
Архитектура Turing Turing Turing
Техпроцесс TSMC 12 нм TSMC 12 нм TSMC 12 нм
Число транзисторов 18,6 млрд. 13,6 млрд. 10,8 млрд.
Площадь кристалла 754 мм² 545 мм² 445 мм²
GPCs  6 6 3
TPCs  34 23 18
SMs  68 46 36
CUDA Cores / SM 64 64 64
CUDA Cores / GPU  4.352 2.944 2.304
Tensor Cores / SM  8 8 8
Tensor Cores / GPU  544 368 288
Ядра RT 68 46 36
Кэш L2 5.632 кбайт 4.096 кбайт 4.096 кбайт
Register File Size / SM  256 кбайт 256 кбайт 256 кбайт
Register File Size / GPU  17.408 кбайт 11.776 кбайт 9.216 кбайт

TU102 GPU опирается на шесть кластеров Graphics Processing Clusters (GPC), 36 кластеров Texture Processing Clusters (TPC) и 72 Streaming Multiprocessors (SM). Но чип в GeForce RTX 2080 Ti имеет только 34 активных TPC. Каждый GPC содержит растровый движок и шесть TPC, каждый TPC - два SM. Наконец, в каждом SM работают 64 текстурных блока, восемь ядер Tensor, имеются 256 кбайт регистров, четыре текстурных блока и 96 кбайт памяти L1/Shared.

TU104 GPU оснащен шестью GPC, но только 24 TPC и 48 SM. Один TPC на GeForce RTX 2080 выключен, поэтому мы получаем не 3.072 потоковых процессоров, а только 2.944.

Самый младший чип Turing на сегодня, а именно TU106, оснащен тремя GPC, 18 TPC и 36 SM в полной конфигурации. NVIDIA для видеокарты GeForce RTX 2070 использовала полную версию, в случае TU102 и TU104 GPU полная версия встречается только на видеокартах Quadro RTX.

Интересно сравнить размеры чипов с поколением Pascal.

Сравнение размеров кристаллов Pascal и Turing
Чип TU102 GP100 GP102 TU104 GP104 TU106 GP106
Площадь кристалла 754 мм² 610 мм² 471 мм² 545 мм² 314 мм² 445 мм² 200 мм²
Количество транзисторов 18,6 млрд. 15,3 млрд. 12 млрд. 13,6 млрд. 7,2 млрд. 10,8 млрд. 4,4 млрд.

Самый крупный GPU Pascal GP102 на видеокартах GeForce (GeForce GTX 1080 Ti и Titan Xp) имеет площадь 471 мм² и содержит 12 млрд. транзисторов. При этом он все равно уступает по размерам и числу транзисторов TU104 на GeForce RTX 2080, причем даже TU106 на GeForce RTX 2070 ненамного меньше. Что еще раз подчеркивает позиционирование новых видеокарт, GeForce RTX 2080 Ti не только по цене ближе к ранее выпущенным моделям Titan. TU104 GPU и видеокарта GeForce RTX 2080 примерно соответствует уровню GeForce GTX 1080 Ti. А "младший" Turing GPU TU106 уже нельзя назвать решением начального уровня, причем не только из-за цены.

Вычислительная производительность в числах

Разные варианты GPU приводят к разной вычислительной производительности. До сих пор мы упоминали гигалучи в секунду, а также 110 TFLOPS FP16, 220 TOPS INT8 и 440 TOPS INT4. Но GPU TU102 содержит 144 блока FP64 - по два на SM. Производительность FP64 по отношению к FP32 составляет 1/32, хотя у архитектуры Volta она равна 1/2. Впрочем, NVIDIA все равно добавила и в архитектуру Turing блоки FP64, чтобы поддержка вычислений была хотя бы на базовом уровне.

Ниже приведены результаты вычислительной производительности видеокарт GeForce RTX 20 Founders Edition.

Вычислительная производительность GeForce RTX 2080 Ti, RTX 2080 и RTX 2070
Модель GeForce RTX 2080 Ti Quadro RTX 6000 GeForce RTX 2080 Quadro RTX 5000 GeForce RTX 2070
GPU TU102 TU102 TU104 TU104 TU106
Вычислительная производительность
FP32 TFLOPS  14,2 16,3 10,6 11,2 7,9
INT32 TIPS  14,2 16,3 10,6 11,2 7,9
FP64 TFLOPS 0,445 0,510 0,331 0,348 0,246 
FP16 TFLOPS  28,5 32,6 21,2 22,3 15,8
FP16 Tensor TFLOPS с умножением FP16 113,8 130,5 84,8 89,2 63
FP16 Tensor TFLOPS с умножением FP32 56,9 130,5 42,4 89,2 31,5
INT8 Tensor TOPS  227,7 261 169,6 178,4 126
INT4 Tensor TOPS  455,4 522 339,1 356,8 252,1

Quadro RTX 8000 опирается на тот же GPU TU102, но объем памяти GDDR6 составляет в два раза выше, поэтому мы не стали добавлять видеокарту в таблицу. Производительность зависит от тактовых частот и варианта расширения GPU. Видеокарты Quadro RTX могут выполнять больше операций умножения на ядрах Tensor, поэтому мы получаем в два раза более высокую производительность по сравнению с игровыми моделями GeForce.