Seite 2: Архитектура Turing без ядер RT и Tensor

Подобно всем видеокартам GeForce RTX, новая GeForce GTX 1660 Ti базируется на архитектуре NVIDIA Turing. Чип содержит 6,6 млрд. транзисторов на площади 284 мм². В результате он на добрых 42% крупнее GP106 (4,4 млрд. транзисторов и 200 мм²) видеокарты GeForce GTX 1060, соответственно, и намного сложнее. Так что видеокарта GeForce GTX 1660 Ti должна работать быстрее GeForce GTX 1060, да и GeForce GTX 1070 будет в прямой досягаемости. Впрочем, не будем торопиться, здесь все же стоит взглянуть на результаты тестов.

Перейдем к подробностям архитектуры Turing и изменениям, которые внесла NVIDIA по сравнению с предыдущим поколением.

Архитектура Turing относится к 12 поколению архитектур NVIDIA GPU. Мультипроцессоры Turing Streaming Multiprocessor (SM) были немного оптимизированы по сравнению с архитектурой Volta, но по сравнению с Pascal изменения намного более существенны.

Из новшеств можно отметить одновременные вычисления целых чисел (INT) и чисел с плавающей запятой (FP), что в предыдущих архитектурах NVIDIA GPU не поддерживалось. NVIDIA проанализировала данные вычисления в конвейере рендеринга в десятках игр, обнаружив, что на каждые 100 расчетов FP выполняется примерно треть вычислений INT. Впрочем, значение среднее, на практике оно меняется от 20% до 50%. Конечно, если вычисления FP и INT будут выполняться одновременно, то конвейеру придется иногда "подтормаживать" в случае взаимных связей.

В любом случае, параллельная обработка FP и INT ускоряет рендеринг, поэтому NVIDIA как раз и добавила ее с архитектурой Turing. У Turing SM имеются 64 блока FP32 и 64 блока INT32 - не совсем типичное соотношение для конвейера рендеринга.

В иерархии кэша произошли изменения, NVIDIA в архитектуре Turing увеличила число блоков Load/Store. В архитектуре Volta NVIDIA использовала 32 блока Load/Store на SM. В случае архитектуры Pascal тоже использовалось 32 блока Load/Store на SM. Сейчас же в архитектуре Turing каждый потоковый мультипроцессор опирается на 64 блока Load/Store, которые выполняют адресацию памяти, кэш обрабатывает 16 потоков за такт. Но NVIDIA также внесла изменения в кэш L1 и общую память.

Кэш L2 был увеличен до 6 Мбайт еще в архитектуре Volta, такой же объем перешел и в Turing. Некоторые изменения с кэшем L1 знакомы по архитектуре Volta. В случае Pascal кэши L1 и общая память были разделены, теперь NVIDIA их объединила. Что наблюдалось и в Volta. Кэш L1 и общая память в случае Volta имели размер 128 кбайт. А объем общей памяти можно было изменять до 96 кбайт. С архитектурой Turing NVIDIA уменьшила объем до 96 кбайт в сумме, теперь он может разделяться на 64 кбайт (кэш L1) + 32 кбайт (общая память) или 32 кбайт (кэш L1) + 64 кбайт (общая память).

Изменение расчетов FP32 и INT32, а также оптимизация иерархии кэша позволили NVIDIA заявить об ускорении скорости выполнения инструкций на такт в полтора раза. Конечно, на практике столь существенный прирост будет наблюдаться лишь в ограниченном числе случаев.

Увеличение эффективности архитектуры привело и к повышению эффективности GPU при идентичном расчетном TDP.

NVIDIA провела свои собственные тесты. Владельцы GeForce GTX 1060 вряд ли будут задумываться об апгрейде на GeForce GTX 1660 Ti, поскольку типичный цикл здесь составляет 3-4 года. Именно по этой причине NVIDIA привела сравнение производительности с видеокартой GeForce GTX 960. Но мы не будем комментировать данные тесты, поскольку провели собственные.