Страница 2: GA102 GPU для GeForce RTX 3090

Чип GA102 GPU для видеокарты GeForce RTX 3090 базируется на архитектуре Ampere, которая отличается от варианта для дата-центров GA100 GPU.

Streaming Multiprocessor (SM) в архитектуре Ampere почти полностью лишился вычислительных блоков FP64, которые в составе GA100 GPU весьма важны для высокопроизводительных вычислений HPC, чего нельзя сказать о потребительском сегменте. Вычисления с двойной точностью выполняются в 1/60 производительности от вычислений FP32.

Зато число вычислительных блоков FP32 было удвоено. Вместо 64 блоков FP32 на SM теперь доступны 128, а также 64 блока INT32. Параллельно поддерживается выполнение двух путей данных. Первый путь состоит из 16 блоков FP32. Так что здесь можно выполнять 16 вычислений FP32 за такт. Второй путь состоит из 16 блоков FP32 и 16 INT32. Каждая четверть SM может выполнять либо 32 операции FP32, либо 16 операций FP32 и 16 INT32 за такт. Для SM целиком это означает 128 операций FP32 или 64 операции FP32 и 64 INT32 за такт.

GA102 GPU содержит семь кластеров GPC (Graphics Processing Clusters) с 12 SM в каждом. Но не все SM активны на GeForce RTX 3090 и GeForce RTX 3080. GA102 GPU теоретически может оснащаться 10.752 блоками FP32 (7 GPCs x 12 SMs x 128 блоков FP32). Но в случае GeForce RTX 3090 отключены два SM, поэтому придется довольствоваться "всего" 10.496 блоками FP32. Таким образом NVIDIA удерживает высокую долю выхода годных кристаллов.

Каждый SM содержит по четыре ядра Tensor третьего поколения. Число ядер Tensor на SM было уполовинено, но они должны быть, как минимум, в два раза более производительны. Ядер RT на SM по-прежнему по одному, но во втором поколении ядер RT произошли некоторые улучшения. Подробности приведены в нашем обзоре GeForce RTX 3080 Founders Edition.

Кроме изменений SM произошли оптимизации в структуре конвейеров растровых операций (ROP) и связи между ROP и контроллерами памяти. Вплоть до поколения Turing ROP всегда подключались к интерфейсу памяти. Использовалось восемь ROP на каждый 32-битный контроллер памяти. И если число контроллеров памяти, соответственно, объем памяти менялись, то же самое было верно и для ROP. В случае архитектуры Ampere ROP расположены в GPC. В каждом GPC есть два раздела ROP, по восемь конвейеров растровых операций каждый. В результате расчет числа ROP отличается. У видеокарты GeForce RTX 3090 используются семь GPC с 2x 8 ROP каждый, что дает 112 ROP.

NVIDIA встроила ROP по-новому, чтобы конвейеры рендеринга меньше зависели от интерфейса памяти. У GeForce RTX 3080 320-битный интерфейс памяти, но доступны 96 ROP вместо всего 80. В случае 384-битного интерфейса GeForce RTX 3090 были бы доступны 96 ROP, но их число составляет 112.