> > > > Архитектура Turing: спецификации, структура и иерархия кэша

Архитектура Turing: спецификации, структура и иерархия кэша

Опубликовано:

nvidia-rtx2080tiNVIDIA пошла на все меры предосторожности, чтобы информация не просочилась раньше времени, однако нашим коллегам с ресурса Videocardz удалось добыть два слайда с закрытой презентации NVIDIA.

На первом слайде приведены технические спецификации GPU TU102, в том числе диаграмма структуры. Качество снимка оставляет желать лучшего, поэтому диаграмму разобрать сложно, но информация о GPU TU102 позволяет распознать многие блоки. На слайде приведена полная версия GPU TU102. Чип оснащен 4.608 потоковыми процессорами, 576 тензорными ядрами и 72 ядрами RT. Что соответствует конфигурации Quadro RTX 8000. Отметим 36 геометрических блоков, 288 текстурных блоков и 96 конвейеров растровых операций, то есть ROP.

На игровых видеокартах в линейке GeForce RTX 20 данный GPU будет использоваться в усеченных вариантах. У GeForce RTX 2080 Ti мы получим 4.352 потоковых процессоров, у GeForce RTX 2080 и GeForce RTX 2070 2.944 и 2.302, соответственно. На основе числа тензорных ядер и ядер RT полной версии GPU TU102 теперь можно рассчитать соответствующие значения для GeForce RTX 2080 Ti, GeForce RTX 2080 и GeForce RTX 2070, пусть даже NVIDIA пока не предоставила официального числа тензорных ядер и ядер RT.

У нас есть информация о числе потоковых процессоров, также мы знаем, что в одном потоковом кластере может быть 32, 64 или даже 128 потоковых процессоров. Кластер SM (streaming multiprocessor) архитектуры Pascal содержал 128 потоковых процессоров, в случае архитектуры Volta NVIDIA изменила структуру на 64 потоковых процессора в кластере SM. Поскольку архитектура Turing больше ориентирована на Volta, чем на Pascal, можно предположить 64 потоковых процессора в кластере SM и у Turing. Что соответствует числу тензорных ядер на SM. В архитектуре Volta используются восемь тензорных ядер на кластер SM - что наверняка верно и для Turing.

Перейдем к новому элементу архитектуры Turing - ядрам RT. В случае 4.608 потоковых процессоров мы получаем 72 ядра RT, что позволяет предположить об использовании одного ядра RT на кластер SM (4.608 потоковых процессоров/64 = 72 кластера SM = 72 ядра RT). Что касается тензорных ядер, 72 кластера SM x 8 = 576 тензорных ядер в полной версии GPU.

Также мы теперь знаем количество текстурных блоков на кластер SM - четыре, как и у архитектуры Volta. По интерфейсу памяти раскладка не изменилась с архитектуры Pascal: он разделен на 32-битные блоки. GPU TU102 в полной конфигурации работает с 384-битным интерфейсом памяти, NVIDIA для GeForce RTX 2080 Ti отключает один блок, что приводит к 352-битному интерфейсу. Каждый 32-битный блок работает со своим чипом памяти. 352/32 бита = 11 каналов памяти и 11 чипов памяти GDDR6. Для GeForce RTX 2080 и GeForce RTX 2070 интерфейс 256-битный, соответственно, мы получаем 8 каналов памяти и 8 чипов GDDR6. Каждый 32-битный блок опирается на 8 ROP.

Технические спецификации GeForce RTX 2080 Ti, RTX 2080 и RTX 2070
МодельGeForce RTX 2080 TiGeForce RTX 2080GeForce RTX 2070
Цена1.259 евро
95.990 руб.
849 евро
63.990 руб.
639 евро
47.990 руб.
Технические спецификации
АрхитектураTuringTuringTuring
GPUTU102TU104TU104
Потоковые процессоры4.3522.9442.304
Тензорные ядра544368288
Ядра RT684636
Текстурные блоки272184144
Геометрические блоки342318
ROPs886464
Частота GPU (базовая)1.350 МГц1.515 МГц1.410 МГц
Частота GPU (Boost)1.635 МГц1.800 МГц1.710 МГц
RTX-OPS78 TRTX-OPS60 TRTX-OPS45 TRTX-OPS
Гигалучей/с10 Глуч/с8 Глуч/с6 Глуч/с

Частота памяти

1.750 МГц1.750 МГц1.750 МГц
Тип памятиGDDR6GDDR6GDDR6
Объем памяти11 GB8 GB8 GB
Ширина шины памяти352 бит256 бит256 бит
Пропускная способность616 Гбайт/с448 Гбайт/с448 Гбайт/с
TDP260 Вт225 Вт185 Вт
Доп. питание2x 8-конт.1x 8-конт. + 1x 6-конт.1x 8-конт.
SLI/NVLinkNVLink 2-WayNVLink 2-WayNVLink 2-Way

Кроме числа потоковых процессоров теперь мы знаем количество тензорных ядер и ядер RT, а также другие архитектурные подробности трех видеокарт. GeForce RTX 2080 Ti содержит 544 тензорных ядра и 68 ядер RT. GeForce RTX 2080 - 368 тензорных ядер и 46 ядер RT, у GeForce RTX 2070 - 288 тензорных ядер и 36 ядер RT. Соответственно, мы можем рассчитать спецификации текстурных и геометрических блоков, а также ROP.

Кэши L1 и L2

На втором слайде показана иерархия кэша. С первого взгляда видно, что NVIDIA перенесла архитектуру Volta на Turing.

Кэш L2 уже был увеличен до 6 Мбайт в архитектуре Volta, и в архитектуру Turing он перешел в таком виде. Произошли изменения и с кэшем L1, во многом знакомые по архитектуре Volta. Если у Pascal использовался отдельный кэш L1 и общий кэш, теперь NVIDIA их объединила. Что тоже знакомо по Volta. В случае Volta кэш L1 вместе с общим кэшем имели объем 128 кбайт. Размер общего кэша свободно конфигурируется до 96 кбайт. В архитектуре Turing NVIDIA уменьшила размер кэша, теперь он составляет 96 кбайт, но возможны варианты конфигурации 64 кбайт (L1) + 32 кбайт (общий) или 32 кбайт (L1) + 64 кбайт (общий).

Теперь мы знаем уже больше подробностей грядущих видеокарт GeForce RTX 2080 Ti, GeForce RTX 2080 и GeForce RTX 2070, а также детали архитектуры Turing. В ближайшие дни и недели утечек должно быть еще больше.