Страница 12: TSMC и 12-нм техпроцесс - производство GPU Turing
На разработку архитектуры Volta NVIDIA затратила больше $2 млрд. В случае архитектуры Turing затраты такие же или даже выше. NVIDIA утверждает, что на разработку архитектуры ушло пять лет. А первые наработки в сфере аппаратного ускорения были начаты еще 10 лет назад. Первые кристаллы были получены около года назад. Причем в течении 24 часов инженерные образцы уже работали на тестовых платах - довольно редкий случай, как утверждает NVIDIA.
GPU на архитектуре Turing оказались самыми крупными, когда-либо устанавливавшимися на игровые видеокарты. NVIDIA пока не перешла на 7-нм техпроцесс, поскольку он еще не готов. Но компания использовала наработки, полученные при производстве GPU Volta по 12-нм техпроцессу. GPU GV100, представленный в мае 2017, довольно крупный - 815 мм². Он содержит 21,1 млрд. транзисторов. GPU GP102 на GeForce GTX 1080 Ti заметно меньше по размеру - 471 мм² и 12 млрд. транзисторов.
Крупный GPU Turing (TU102) ненамного уступает. NVIDIA также производит чип по 12-нм техпроцессу на мощностях TSMC. Число транзисторов составляет 18,6 млрд. NVIDIA указывает размер GPU 754 мм². В случае Turing GPU TU104 среднего размера мы получаем 13,6 млрд. транзисторов на площади 545 мм². Младшая видеокарта GeForce RTX 270 опирается на TU106 GPU с 10,8 млрд. транзисторов площадью 445 мм².
Как обычно, NVIDIA не предоставляет информации о выходе годных кристаллов при производстве столь крупных чипов. Поскольку GPU Volta производится на конвейере уже больше года, NVIDIA вместе с TSMC наверняка накопила опыт.
Модель | GeForce RTX 2080 Ti | GeForce RTX 2080 | GeForce RTX 2070 |
GPU | TU102 | TU104 | TU106 |
Технические спецификации | |||
---|---|---|---|
Архитектура | Turing | Turing | Turing |
Техпроцесс | TSMC 12 нм | TSMC 12 нм | TSMC 12 нм |
Число транзисторов | 18,6 млрд. | 13,6 млрд. | 10,8 млрд. |
Площадь кристалла | 754 мм² | 545 мм² | 445 мм² |
GPCs | 6 | 6 | 3 |
TPCs | 34 | 23 | 18 |
SMs | 68 | 46 | 36 |
CUDA Cores / SM | 64 | 64 | 64 |
CUDA Cores / GPU | 4.352 | 2.944 | 2.304 |
Tensor Cores / SM | 8 | 8 | 8 |
Tensor Cores / GPU | 544 | 368 | 288 |
Ядра RT | 68 | 46 | 36 |
Кэш L2 | 5.632 кбайт | 4.096 кбайт | 4.096 кбайт |
Register File Size / SM | 256 кбайт | 256 кбайт | 256 кбайт |
Register File Size / GPU | 17.408 кбайт | 11.776 кбайт | 9.216 кбайт |
TU102 GPU опирается на шесть кластеров Graphics Processing Clusters (GPC), 36 кластеров Texture Processing Clusters (TPC) и 72 Streaming Multiprocessors (SM). Но чип в GeForce RTX 2080 Ti имеет только 34 активных TPC. Каждый GPC содержит растровый движок и шесть TPC, каждый TPC - два SM. Наконец, в каждом SM работают 64 текстурных блока, восемь ядер Tensor, имеются 256 кбайт регистров, четыре текстурных блока и 96 кбайт памяти L1/Shared.
TU104 GPU оснащен шестью GPC, но только 24 TPC и 48 SM. Один TPC на GeForce RTX 2080 выключен, поэтому мы получаем не 3.072 потоковых процессоров, а только 2.944.
Самый младший чип Turing на сегодня, а именно TU106, оснащен тремя GPC, 18 TPC и 36 SM в полной конфигурации. NVIDIA для видеокарты GeForce RTX 2070 использовала полную версию, в случае TU102 и TU104 GPU полная версия встречается только на видеокартах Quadro RTX.
Интересно сравнить размеры чипов с поколением Pascal.
Чип | TU102 | GP100 | GP102 | TU104 | GP104 | TU106 | GP106 |
Площадь кристалла | 754 мм² | 610 мм² | 471 мм² | 545 мм² | 314 мм² | 445 мм² | 200 мм² |
Количество транзисторов | 18,6 млрд. | 15,3 млрд. | 12 млрд. | 13,6 млрд. | 7,2 млрд. | 10,8 млрд. | 4,4 млрд. |
Самый крупный GPU Pascal GP102 на видеокартах GeForce (GeForce GTX 1080 Ti и Titan Xp) имеет площадь 471 мм² и содержит 12 млрд. транзисторов. При этом он все равно уступает по размерам и числу транзисторов TU104 на GeForce RTX 2080, причем даже TU106 на GeForce RTX 2070 ненамного меньше. Что еще раз подчеркивает позиционирование новых видеокарт, GeForce RTX 2080 Ti не только по цене ближе к ранее выпущенным моделям Titan. TU104 GPU и видеокарта GeForce RTX 2080 примерно соответствует уровню GeForce GTX 1080 Ti. А "младший" Turing GPU TU106 уже нельзя назвать решением начального уровня, причем не только из-за цены.
Вычислительная производительность в числах
Разные варианты GPU приводят к разной вычислительной производительности. До сих пор мы упоминали гигалучи в секунду, а также 110 TFLOPS FP16, 220 TOPS INT8 и 440 TOPS INT4. Но GPU TU102 содержит 144 блока FP64 - по два на SM. Производительность FP64 по отношению к FP32 составляет 1/32, хотя у архитектуры Volta она равна 1/2. Впрочем, NVIDIA все равно добавила и в архитектуру Turing блоки FP64, чтобы поддержка вычислений была хотя бы на базовом уровне.
Ниже приведены результаты вычислительной производительности видеокарт GeForce RTX 20 Founders Edition.
Модель | GeForce RTX 2080 Ti | Quadro RTX 6000 | GeForce RTX 2080 | Quadro RTX 5000 | GeForce RTX 2070 |
GPU | TU102 | TU102 | TU104 | TU104 | TU106 |
Вычислительная производительность | |||||
---|---|---|---|---|---|
FP32 TFLOPS | 14,2 | 16,3 | 10,6 | 11,2 | 7,9 |
INT32 TIPS | 14,2 | 16,3 | 10,6 | 11,2 | 7,9 |
FP64 TFLOPS | 0,445 | 0,510 | 0,331 | 0,348 | 0,246 |
FP16 TFLOPS | 28,5 | 32,6 | 21,2 | 22,3 | 15,8 |
FP16 Tensor TFLOPS с умножением FP16 | 113,8 | 130,5 | 84,8 | 89,2 | 63 |
FP16 Tensor TFLOPS с умножением FP32 | 56,9 | 130,5 | 42,4 | 89,2 | 31,5 |
INT8 Tensor TOPS | 227,7 | 261 | 169,6 | 178,4 | 126 |
INT4 Tensor TOPS | 455,4 | 522 | 339,1 | 356,8 | 252,1 |
Quadro RTX 8000 опирается на тот же GPU TU102, но объем памяти GDDR6 составляет в два раза выше, поэтому мы не стали добавлять видеокарту в таблицу. Производительность зависит от тактовых частот и варианта расширения GPU. Видеокарты Quadro RTX могут выполнять больше операций умножения на ядрах Tensor, поэтому мы получаем в два раза более высокую производительность по сравнению с игровыми моделями GeForce.