Страница 2: Архитектура Vega в подробностях - часть 1

Как мы уже упомянули, AMD производит GPU Vega 10 по 14-нм техпроцессу FinFET. В общей сложности на GPU присутствуют 12,5 млрд. транзисторов, так что сложность чипа сравнима с NVIDIA GP102 на GeForce GTX 1080 Ti. На GPU расположены, в общей сложности, 45 Гбайт памяти SRAM, AMD удвоила кэш L2 до 4 Мбайт. Ниже мы рассмотрим новые компоненты архитектуры Vega.

Память High Bandwidth Memory второго поколения

Начнем с используемой памяти. AMD выбрала HBM 2-го поколения. AMD поставила на данную память в качестве основы для архитектуры Vega, что нельзя назвать безупречным шагом. Разработка и производство памяти HBM2 развивались совсем не так, как планировали AMD и NVIDIA. По этой причине NVIDIA для игровых видеокарт решила не зависеть от HBM2, оснащая свои GPU памятью GDDR5X.

Со стороны AMD ситуация выглядит иначе. Архитектура Vega с самого начала разработана под память HBM2, поэтому AMD пришлось смириться с задержками, связанными с разработкой и производством памяти HBM2, поскольку первоначальные планы не оправдались.

Память HBM2, в отличие от HBM1, обеспечивает намного лучшую гибкость по возможностям расширения. Память HBM2 может устанавливаться в стеках на 2 Гбайт (2Hi HBM2), 4 Гбайт (4Hi HBM2), 8 Гбайт (8Hi HBM2) и 16 Гбайт (16Hi HBM2). На данный момент производители памяти HBM2 SK Hynix и Samsung могут выпускать стеки только до 8Hi HBM2. До сих пор неизвестно, кто изготавливает память HBM2 для AMD, SK Hynix или Samsung.

Спецификации памяти 16Hi HBM2 уже определены, поэтому ее можно производить. Конфигурация памяти на видеокарте определяется количеством стеков и их подключением. NVIDIA с видеокартами Tesla V100 опирается на четыре стека по 4 Гбайт, что дает 16 Гбайт в сумме. AMD для Radeon RX Vega выбрала вариант да стека по 4 Гбайт, поэтому мы получаем 8 Гбайт.

Некоторые преимущества High Bandwidth Memory известны еще по первому поколению памяти на видеокартах Radeon R9 Fury X. Пропускная способность памяти 512 Гбайт/с находилась на очень высоком уровне, также память HBM1 обеспечивала в два раза большую эффективность из-за низкого энергопотребления. По сравнению с памятью GDDR5 новая HBM2 должна работать еще более эффективно – в 3,5 раза. Память High Bandwidth Memory располагается на подложке рядом с GPU, поэтому она входит в упаковку GPU. В результате на печатной плате память занимает намного меньше места. AMD говорит об экономии до 75%.

Все эти преимущества верны и для Radeon RX Vega. Поскольку теперь используются всего два стека памяти, ширина интерфейса составляет 2.048 бита. Поэтому и пропускная способность памяти чуть меньше – 484 или 410 Гбайт/с.

Next Generation Computer Unit

AMD значительно улучшила потоковые процессоры архитектуры Vega по сравнению с Polaris. Ниже приведены основные пункты:

  • Улучшены блоки SIMD с Rapid Packed Math
  • 16-битные регистры работают в два раза эффективнее
  • Удвоена производительность 16-битных операций с плавающей запятой
  • Увеличена эффективность 32-битных операций
  • Совместимость с IEEE2008
  • Блоки SIMD в NCU могут обрабатывать IEEE-совместимые операций FP16 с удвоенной скоростью
  • Операции со смешанной точностью
  • Полный набор операций Pack, Unpacked и Convert
  • Операция семплирования текстур возвращает в GPR результат в сжатом формате

AMD пересмотрела набор инструкций ISA (Instruction Set Architecture), в котором присутствует 40 новых инструкций. Некоторые из них упомянуты в списке выше, другие позволяют выполнять 512 8-битных операций за такт (инструкции QSAD и MQSAD), 256 16-битных операций за такт, 128 32-битных операций за такт. Все эти меры привели к повышению производительности в расчете за такт IPC (Instructions per Cycle) архитектуры Vega. Поскольку AMD сделала набор инструкций ISA открыто доступным, разработчики могут создавать соответствующие компиляторы.

Как мы уже упомянули, AMD в архитектуре Vega удвоила кэш L2 до 4 Мбайт по сравнению с архитектурой Polaris. Более крупный кэш L2 позволит сократить число передач данных в память HBM2 и из нее. Кроме того, теперь возможно прямое обращение к кэшу L2. Дизайн SRAM был позаимствован у архитектуры Zen, что дает меньшую на 18% площадь чипа, а также на 43% меньшее энергопотребление.

Целью архитектуры Vega было и увеличение тактовых частот, здесь NCU играют существенную роль. AMD удалось сократить дорожки прохождения сигналов NCU, что позволило снизить задержки, также у потоковых процессоров мы получаем конвейер с четырьмя ступенями. Тройки NCU используют общий кэш инструкций и данных. Все эти меры должны позволить Radeon RX Vega 64 с водяным охлаждением достигать частоты Boost 1.677 МГц.

Primitive Shaders и Rapid Packed Math

Из новшеств конвейера геометрии можно назвать то, что вершинные и геометрические шейдеры больше не обрабатываются по-отдельности. Вместо них используются шейдеры примитивов. Они могут включать в себя расчеты вершин и геометрии, также новые шейдеры позволяют лучше распределить нагрузку по доступным аппаратным ресурсам благодаря улучшенному блоку Load Balancer. В результате потоковые процессоры будут нагружаться более эффективно. GPU постоянно отслеживает нагрузку, пытаясь достичь идеального распределения.

Шейдеры примитивов используются для консервативной растеризации (Conservative Rasterization). AMD Vega GPU – единственные дискретные GPU, способные работать с DirectX 12_1 Conservative Rasterization Tier 3. Консервативная растеризация обеспечивает Shadow Mapping на уровне субпикселей, а также поддерживает Voxel Based Global Illumination. Tier 3 позволят передать информацию о внутреннем разделении напрямую на пиксельные шейдеры.

AMD также привела результаты тестов с шейдерами примитивов. На диаграммах показаны GPU Fiji GPU с родным конвейером, GPU Vega с родным конвейером и Vega с NGG Fast Path. Конечно, эти результаты нельзя напрямую соотносить с игровой производительностью. Поэтому весьма интересно будет узнать, какой эффект мы получим на практике. Но вряд ли поддержка NGG Fast Path появится в играх сразу после старта видеокарт.