Hardwareluxx > Новости > Железо > Видеокарты > Архитектура Turing: спецификации, структура и иерархия кэша

Архитектура Turing: спецификации, структура и иерархия кэша

Опубликовано: 24.08.2018 в 13:09 Андрей Шиллинг

nvidia-rtx2080ti NVIDIA пошла на все меры предосторожности, чтобы информация не просочилась раньше времени, однако нашим коллегам с ресурса Videocardz удалось добыть два слайда с закрытой презентации NVIDIA.

На первом слайде приведены технические спецификации GPU TU102, в том числе диаграмма структуры. Качество снимка оставляет желать лучшего, поэтому диаграмму разобрать сложно, но информация о GPU TU102 позволяет распознать многие блоки. На слайде приведена полная версия GPU TU102. Чип оснащен 4.608 потоковыми процессорами, 576 тензорными ядрами и 72 ядрами RT. Что соответствует конфигурации Quadro RTX 8000. Отметим 36 геометрических блоков, 288 текстурных блоков и 96 конвейеров растровых операций, то есть ROP.

На игровых видеокартах в линейке GeForce RTX 20 данный GPU будет использоваться в усеченных вариантах. У GeForce RTX 2080 Ti мы получим 4.352 потоковых процессоров, у GeForce RTX 2080 и GeForce RTX 2070 2.944 и 2.302, соответственно. На основе числа тензорных ядер и ядер RT полной версии GPU TU102 теперь можно рассчитать соответствующие значения для GeForce RTX 2080 Ti, GeForce RTX 2080 и GeForce RTX 2070, пусть даже NVIDIA пока не предоставила официального числа тензорных ядер и ядер RT.

У нас есть информация о числе потоковых процессоров, также мы знаем, что в одном потоковом кластере может быть 32, 64 или даже 128 потоковых процессоров. Кластер SM (streaming multiprocessor) архитектуры Pascal содержал 128 потоковых процессоров, в случае архитектуры Volta NVIDIA изменила структуру на 64 потоковых процессора в кластере SM. Поскольку архитектура Turing больше ориентирована на Volta, чем на Pascal, можно предположить 64 потоковых процессора в кластере SM и у Turing. Что соответствует числу тензорных ядер на SM. В архитектуре Volta используются восемь тензорных ядер на кластер SM - что наверняка верно и для Turing.

Перейдем к новому элементу архитектуры Turing - ядрам RT. В случае 4.608 потоковых процессоров мы получаем 72 ядра RT, что позволяет предположить об использовании одного ядра RT на кластер SM (4.608 потоковых процессоров/64 = 72 кластера SM = 72 ядра RT). Что касается тензорных ядер, 72 кластера SM x 8 = 576 тензорных ядер в полной версии GPU.

Также мы теперь знаем количество текстурных блоков на кластер SM - четыре, как и у архитектуры Volta. По интерфейсу памяти раскладка не изменилась с архитектуры Pascal: он разделен на 32-битные блоки. GPU TU102 в полной конфигурации работает с 384-битным интерфейсом памяти, NVIDIA для GeForce RTX 2080 Ti отключает один блок, что приводит к 352-битному интерфейсу. Каждый 32-битный блок работает со своим чипом памяти. 352/32 бита = 11 каналов памяти и 11 чипов памяти GDDR6. Для GeForce RTX 2080 и GeForce RTX 2070 интерфейс 256-битный, соответственно, мы получаем 8 каналов памяти и 8 чипов GDDR6. Каждый 32-битный блок опирается на 8 ROP.

Технические спецификации GeForce RTX 2080 Ti, RTX 2080 и RTX 2070
Технические спецификации
Модель	GeForce RTX 2080 Ti	GeForce RTX 2080	GeForce RTX 2070
Цена	1.259 евро 95.990 руб.	849 евро 63.990 руб.	639 евро 47.990 руб.
Архитектура	Turing	Turing	Turing
GPU	TU102	TU104	TU104
Потоковые процессоры	4.352	2.944	2.304
Тензорные ядра	544	368	288
Ядра RT	68	46	36
Текстурные блоки	272	184	144
Геометрические блоки	34	23	18
ROPs	88	64	64
Частота GPU (базовая)	1.350 МГц	1.515 МГц	1.410 МГц
Частота GPU (Boost)	1.635 МГц	1.800 МГц	1.710 МГц
RTX-OPS	78 TRTX-OPS	60 TRTX-OPS	45 TRTX-OPS
Гигалучей/с	10 Глуч/с	8 Глуч/с	6 Глуч/с
Частота памяти	1.750 МГц	1.750 МГц	1.750 МГц
Тип памяти	GDDR6	GDDR6	GDDR6
Объем памяти	11 GB	8 GB	8 GB
Ширина шины памяти	352 бит	256 бит	256 бит
Пропускная способность	616 Гбайт/с	448 Гбайт/с	448 Гбайт/с
TDP	260 Вт	225 Вт	185 Вт
Доп. питание	2x 8-конт.	1x 8-конт. + 1x 6-конт.	1x 8-конт.
SLI/NVLink	NVLink 2-Way	NVLink 2-Way	NVLink 2-Way

Кроме числа потоковых процессоров теперь мы знаем количество тензорных ядер и ядер RT, а также другие архитектурные подробности трех видеокарт. GeForce RTX 2080 Ti содержит 544 тензорных ядра и 68 ядер RT. GeForce RTX 2080 - 368 тензорных ядер и 46 ядер RT, у GeForce RTX 2070 - 288 тензорных ядер и 36 ядер RT. Соответственно, мы можем рассчитать спецификации текстурных и геометрических блоков, а также ROP.

Кэши L1 и L2

На втором слайде показана иерархия кэша. С первого взгляда видно, что NVIDIA перенесла архитектуру Volta на Turing.

Кэш L2 уже был увеличен до 6 Мбайт в архитектуре Volta, и в архитектуру Turing он перешел в таком виде. Произошли изменения и с кэшем L1, во многом знакомые по архитектуре Volta. Если у Pascal использовался отдельный кэш L1 и общий кэш, теперь NVIDIA их объединила. Что тоже знакомо по Volta. В случае Volta кэш L1 вместе с общим кэшем имели объем 128 кбайт. Размер общего кэша свободно конфигурируется до 96 кбайт. В архитектуре Turing NVIDIA уменьшила размер кэша, теперь он составляет 96 кбайт, но возможны варианты конфигурации 64 кбайт (L1) + 32 кбайт (общий) или 32 кбайт (L1) + 64 кбайт (общий).

Теперь мы знаем уже больше подробностей грядущих видеокарт GeForce RTX 2080 Ti, GeForce RTX 2080 и GeForce RTX 2070, а также детали архитектуры Turing. В ближайшие дни и недели утечек должно быть еще больше.