Страница 3: PCB, система питания, корпусировка GPU и видеопамять

GDDR6X как стандарт де факто

Помимо GPU, важным компонентом видеокарты остается память, поскольку она должна как можно быстрее обеспечивать графический процессор данными. Данные на видеокарту поступают через интерфейс PCI Express, они загружаются в видеопамять, после чего к ним может обращаться GPU с пропускной способностью почти 1 Тбайт/с. С годами технологии памяти совершенствовались.

GDDR (Graphics Double Data Rate) остается важным стандартом памяти современных видеокарт помимо High Bandwidth Memory (HBM). Как и в случае оперативной памяти DDR на материнских платах, GDDR тоже прошла через несколько поколений. В случае памяти DDR (и GDDR) передача данных производится на подъеме и спаде тактового сигнала. Со сменой поколений пропускная способность памяти GDDR существенно увеличилась. Вместе с тем энергопотребление продолжало снижаться. Память GDDR по 256-битному интерфейсу дает пропускную способность 25,6 Гбайт/с. У GDDR6X она достигает 936 Гбайт/с, планируются и более быстрые варианты. Тактовые частоты с поколениями увеличились со 166 МГц до нынешних 2.000 МГц и выше.

В текущих видеокартах серии GeForce RTX 40 NVIDIA использует память GDDR6(X), которая теперь выпускается всеми основными производителями памяти. Память GDDR6X работает примерно на тех же частотах, что и GDDR6, напряжения тоже сравнимы. Но отличия имеются, к ним мы вернемся чуть ниже.

За последние годы было несколько попыток перейти на память HBM на рынке видеокарт. Однако высокая себестоимость памяти HBM и соответствующего интерфейса привели к тому, что сегодня почти все видеокарты оснащаются GDDR6X. На серверном сегменте все иначе. NVIDIA предлагает архитектуру Hopper в сочетании с памятью HBM2E, а именно H100 Tensor GPU. HBM2E теперь достигает скорости передачи данных до 4 ТБ/с и выше, в то время как GDDR6X на данный момент находится на пределе – около 1 ТБ/с.

Пропускная способность памяти - спецификация техническая. Она дополняется различными алгоритмами сжатия данных в памяти. Что позволяет как сэкономить доступное пространство в памяти, так и ускорить передачу данных. Например, уже несколько поколений GPU NVIDIA используют цветовую дельта-компрессию. NVIDIA уже внедрила шестое поколение подобной компрессии.

Важно понимать, что сжатие выполняется без потерь. Так что никакие данные не искажаются, и разработчикам не приходится адаптировать свои продукты каким-либо образом.

NVIDIA использует для сжатия памяти цветовую дельта-компрессию (Delta Color Compression). Она основана на хранении полной цветовой информации только о базовом пикселе, для остальных пикселей сохраняется разница с базовым (дельта). Для этой цели используется матрица 8x8 пикселей. Поскольку близко расположенные пиксели обычно мало отличаются по цвету, хранение для них разницы оказывается по объёму информации выгоднее, чем полного значения цвета. Поэтому в случае дельта-компрессии информация о пикселях занимает меньше места в памяти, также достигается экономия пропускной способности памяти. В качестве примера работы технологии можно привести полностью черный и белый блоки, которые будут храниться в памяти как {1.0, 0.0, 0.0, 0.0} или {0.0, 1.0, 1.0, 1.0}. Здесь можно сэкономить ресурсы, сохраняя только 0.0 или 1.0 в качестве значения.

NVIDIA улучшила процедуру определения сжимаемого контента. Ранее известное соотношение 2:1 теперь может использоваться чаще, то есть применяться к большему массиву данных. Появились и соотношения сжатия 4:1 и 8:1.

Сжатие цветовой информации позволяет увеличить эффективную пропускную способность памяти, поскольку физически ей приходится передавать меньше информации. Что повышает эффективность работы интерфейса памяти.

С контроллером GDDR6(X) NVIDIA продолжила использовать технологию определения и исправления ошибок Error Detection and Replay (EDR). Память GDDR6X работает на эффективной частоте порядка 1.200 МГц. Память становится все сложнее, частоты увеличиваются, поэтому ошибки неизбежны. По этой причине с памятью DDR5 была добавлена ECC на кристалле. И подобная встроенная поддержка ECC вполне сравнима с EDR.

Через Error Detection and Replay определяются ошибки (Error Detection), после чего данные передаются повторно, пока ошибок не будет (Replay). Теперь ошибки передачи определяются на уровне контроллера памяти и не приводят к появлению артефактов. Для проверки целостности данных применяется алгоритм Cyclic Redundancy Check (CRC). Если данные будут повреждены при передаче, то контрольная сумма CRC не совпадет.

Без CRC или Error Detection and Replay на высоких частотах повышается риск возникновения ошибок и появления артефактов. Также есть риск краха драйвера или системы.

Благодаря Error Detection and Replay ошибки получается выявлять и исправлять. Но при дальнейшем разгоне можно выйти на уровень, когда пропускную способность далее увеличить уже не получается. Но до этого уровня «вылетов» не происходит, можно надеяться на безошибочную работу. Таким образом, EDR не только защищает целостность данных при обычной работе видеокарты, но и помогает разогнать память до предела возможностей.

Подсистема питания

Подсистема питания играет важную роль на современных видеокартах. NVIDIA как раз недавно существенно улучшила систему питания на эталонных дизайнах. В линейке GeForce RTX 40 система питания очень мощная и качественная, что видно по моделям Founders Editions и эталонным дизайнам, которые используются партнерами.

Подсистема питания GPU, памяти и других компонентов важна для эффективной и стабильной работы видеокарты. Все же речь идет о питании до 76,3 млрд. транзисторов в случае 5-нм техпроцесса, с несколькими уровнями напряжения, которые должны быть точно отрегулированы. Кроме того, система питания должна гибко адаптироваться в зависимости от нагрузки. Наконец, потери на подсистеме питания должны быть минимальны, то есть она не должна становиться существенным потребителем энергии.

В составе подсистемы питания важную роль играют модули стабилизации напряжения VRM (Voltage Regulator Modules). Они гарантируют, что напряжение 12 В, которое поступает от блока питания ПК, будет преобразовано в напряжение около 1 В, которое необходимо для питания GPU и памяти.

Многие производители подчеркивают большое число фаз подсистемы питания. Однако подход «больше – лучше» здесь работает не всегда. Как правило, чем выше тепловой пакет, то есть энергопотребление видеокарты, тем больше фаз должна содержать подсистема питания.

Правило следующее: чем больше фаз подсистемы питания установлено на видеокарту, тем лучше она справляется с подачей питания при высоких токах. Вместе с тем если фаз больше, чем требуется, то эффективность снижается. Все же большое число фаз приводят к потерям при стабилизации. Поэтому NVIDIA начиная с линейки GeForce RTX 20 разработала систему, которая может динамически включать и выключать фазы - в зависимости от того, сколько именно питания требуется для видеокарты. В результате подсистема питания всегда обеспечивает идеальный баланс. У GeForce RTX 4090 подсистема питания 20-фазная, при этом она может динамически включать/выключать фазы. У видеокарты GeForce RTX 4080 число фаз составляет 18, у младших моделей с меньшим энергопотреблением число фаз пропорционально уменьшается.

Новое подключение питания 12VHPWR устраняет необходимость балансировки между двумя или более разъемами питания PCI Express. Однако видеокарты, которые по-прежнему используют более двух старых разъемов питания, должны учитывать балансировку в дизайне системы питания.

Корпусировка GPU

Конечно, самый важный компонент видеокарты - это GPU. Но в данном случае подразумевается не просто кристалл на PCB (Printed Circuit Board), но корпусировка GPU. Упаковка GPU состоит из подложки, обычно тоже PCB, к которой кристалл крепится через массив шариков BGA (Ball Grid Array). Впрочем, некоторые GPU напрямую припаиваются к PCB видеокарты через BGA и без подложки. Опять же, здесь все зависит от корпусировки GPU.

Если посмотреть на типичную корпусировку GPU, то графический процессор будет расположен по центру, его окружают различные компоненты SMD, по большей части резисторы. Упаковка GPU припаивается к PCB видеокарты через BGA. В показанном примере видеопамять GDDR6(X) расположена вне корпусировки GPU, на видеокарте.

Однако NVIDIA также выпускает графический процессор H100, в котором видеопамять расположена в непосредственной близости в виде HBM2E. GPU и HBM расположены на единой подложке Interposer. Причем подложка Interposer тоже имеет свою структуру с вертикальными и горизонтальными соединениями, которые обеспечивают связь между GPU и HBM.

Преимущество HBM заключается в очень широком интерфейсе памяти, который обеспечивает высокий уровень пропускной способности. Но данный интерфейс возможен только через подложку Interposer, поскольку на чип памяти приходится 1.024 дорожек. С двумя или четырьмя чипами памяти количество дорожек пропорционально увеличивается и превышает 6.000. Производство подложки Interposer - процесс довольно трудоемкий и затратный, он обходится дороже, чем просто установка корпусировки GPU через BGA на PCB видеокарты. Кроме того, производителю видеокарты уже недостаточно просто купить GPU и смонтировать его на видеокарту; в цепочке производства задействуются дополнительные компании, которые устанавливают GPU и HBM на подложку.

Собственно, в этом кроется одна из причин (помимо доступности и цен самой HBM), почему память HBM сегодня устанавливается лишь на ускорители для ЦОД, но не на видеокарты GeForce RTX.