Hardwareluxx > Новости > Железо > Видеокарты > Видеокарты GeForce RTX 2080 Ti слишком часто выходят из строя (обновление 6)

Видеокарты GeForce RTX 2080 Ti слишком часто выходят из строя (обновление 6)

PDFПечатьE-mail

Опубликовано:
Андрей Шиллинг

geforcertx2080tiНа Reddit и некоторых других форумах за последние дни появилось довольно много сообщений о слишком высокой вероятности выхода из строя GeForce RTX 2080 Ti. К сожалению, найти подтверждение этой информации пока не удалось, поскольку ни NVIDIA, ни партнеры компании не делятся процентом брака. Как правило, из строя во время гарантийного срока выходит очень мало видеокарт, единицы процентов. Но, похоже, с новыми видеокартами RTX ситуация иная.

Ошибка проявляет себя следующим образом: после нескольких дней успешной работы появляются признаки сбоя в виде графических ошибок или "синих экранов смерти". Причина появления графических ошибок неизвестна. Причем проблема наблюдается и на видеокартах GeForce RTX 2080 Ti Founders Edition, которые NVIDIA продает напрямую, и на видеокартах партнеров.

В форуме немецкого Hardwareluxx уже четыре пользователя сообщили о выходе из строя GeForce RTX 2080 Ti после покупки. Все видеокарты были оснащены воздушным кулером. Но это мало что значит, поскольку для статистики требуется большая выборка.

Пока не прослеживается связи с ручным или заводским разгоном. Влияние прошивки альтернативного BIOS с более высокой планкой Power Limit тоже не подтверждено.

Пока что проблемы наблюдаются только с видеокартами GeForce RTX 2080 Ti. В случае GeForce RTX 2080 и GeForce RTX 2070 подобных неприятностей пока не обнаружено. Видеокарта GeForce RTX 2080 Ti использует чип TU102, самую большую модель GPU Turing в модельном ряде GeForce. Площадь чипа составляет 754 мм², он содержит 18,6 млрд. транзисторов. Но причина сбоя может заключаться и в других компонентах. Например, в памяти GDDR6 от Micron. Или подсистеме питания.

Конечно, только NVIDIA с партнерами сможет ответить на критику. Но пока что мы не можем подтвердить более высокий процент брака. Из-за дефицита GeForce RTX 2080 Ti владельцам вышедших из строя видеокарт приходится подолгу ждать замены.

Поскольку вероятность выхода из строя может повышаться при разгоне, следует отметить следующее. NVIDIA ограничила питание новых видеокарт Turing таким образом, что пользователь не может внести никаких изменений, которые привели бы к выходу GPU из строя. Даже если поднять Power Limit до максимума, напряжение, подаваемое на GPU, останется в допустимых пределах. А именно 1,068 В. Бегунок регулировки напряжения в утилитах разгона позволяет выставить от 0 до 100 %, но здесь учитывается лишь диапазон, разрешенный NVIDIA. Без аппаратной модификации видеокарты поднять напряжение выше предельного уровня NVIDIA невозможно.

Обновление:

Хотя с нашими образцами GeForce RTX 2080 Ti каких-либо проблем до сих пор выявлено не было, мы решили проверить нагрев видеокарты. Мы использовали GeForce RTX 2080 Ti в версии Founders Edition.

Сначала мы провели измерения с помощью камеры-тепловизора. Видеокарта работала на стандартных тактовых частотах, затем мы перешли к разгону.

100% Power Limit, частота GPU Boost составила 1.850 МГц, память GDDR6 работала на 1.750 МГц: область за чипами памяти нагревалась между 73 и 74 °C.

123% Power Limit, частота GPU Boost 2.000 МГц и память GDDR6 на 1.950 МГц: область за чипами памяти, через которую проходят дорожки питания GPU, нагрелась на 5 °C сильнее, мы получили температуру от 78 до 79 °C.

Обращает на себя внимание нагрев PCB в областях, где проходят дорожки подачи напряжения от фаз системы питания. То есть горячие участки за чипами памяти как раз совпадают с дорожками системы питания. Слева от GPU можно видеть небольшую узкую "трассу", которая тоже нагревается. Через нее напряжение подают еще шесть фаз, расположенных с другой стороны GPU.

Ничего нового мы не обнаружили, но подтвердили информацию, появившуюся ранее от наших коллег Tom's Hardware. Некоторые чипы нагреваются, но о перегреве говорить не приходится. Те же чипы GDDR6 от Micron могут работать при температуре до 95 °C. Но получим ли мы 95 °C, если будем измерять температуру напрямую на чипах?

Мы провели измерения с помощью тепловизора со снятой задней пластиной, но не стоит забывать, что она помогает отводить тепло. NVIDIA добавила теплопередающие прокладки между участками PCB и задней пластиной.

На снимках выше показаны изображения с камеры-тепловизора с установленной задней пластиной. Они позволяют оценить разницу в температурах между поверхностью PCB и задней пластиной. Мы получаем разницу порядка 10°C, так что температуру задняя пластина действительно распределяет лучше. В идеальном случае мы должны получить почти одинаковую температуру, поскольку задняя пластина должна более эффективно распределять тепло по всей своей поверхности.

Затем мы перешли к прямым измерениям. Мы использовали точечные щупы 80PK-1 и термометр Fluke 52 II, чтобы проводить измерения напрямую на чипах памяти GDDR6. Мы приклеили сенсоры между двумя чипами памяти. Но сначала позвольте привести схему PCB видеокарты GeForce RTX 2080 Ti.

Слева и справа от упаковки GPU расположены по шесть фаз подсистемы питания GPU. От них на PCB проложены дорожки к упаковке GPU (показаны желтым). Одиннадцать чипов памяти GDDR6 расположены с трех сторон от упаковки GPU. Мы установили пробы между чипами M6 и M7, а также между M2 и M3, после чего измеряли температуры. Проба прижималась к чипу памяти сбоку.

Измерения температур чипов памяти GDDR6
  M6 и M7 M2 и M3
Стандартная частота 84 °C 78 °C
Разгон 92 °C 86 °C

Мы вновь провели измерения в стандартном режиме (100% Power Limit, GPU Boost 1.850 МГц, GDDR6 на 1.750 МГц) и с разгоном (123% Power Limit, GPU Boost 2.000 МГц и GDDR6 на 1.950 МГц).

После разгона температура чипа увеличилась до 92 °C. Что довольно близко к предельному уровню 95 °C, который указывает производитель памяти GDDR6 Micron. Но следует помнить, что между температурами чипа и пробы может быть небольшая разница. Без разгона температура чипов памяти была несколько ниже. Также мы получили разницу в температурах между чипами от M5 до M8, которые нагревались существенно выше чипов, удаленных от дорожек питания GPU (от M1 до M4).

Мы запустили ночной тест 3DMark TimeSpy, после чего провели некоторые тесты в играх. Крахов и вылетов мы не обнаружили. Пока что мы не можем сказать, в чем состоят причины выхода из строя видеокарт GeForce RTX 2080 Ti. По мере накапливания тестов от различных пользователей, связь с высокими температурами становится все более вероятной.

Обновление 2:

Выше речь шла о видеокарте GeForce RTX 2080 Ti, но мы решили исследовать и GeForce RTX 2080 Founders Edition. Сначала с задней пластиной, потом без нее.

100% Power Target, 1.900 МГц частота Boost, 1.750 МГц частота памяти: температура задней пластины составила 64,5 °C.

120% Power Target, 2.025 МГц частота Boost, 2.000 МГц частота памяти: температура задней пластины составила 70,7 °C.

Без задней пластины: 100% Power Target, 1.900 МГц частота Boost, 1.750 МГц частота памяти. Температура PCB (под памятью): 71,4 °C / (под VRM) 76,7 °C.

120% Power Target, 2.025 МГц частота Boost, 2.000 МГц частота памяти. Температура PCB (под памятью): 71,6 °C / (под VRM) 86,7 °C.

Чипы памяти GeForce RTX 2080 нагреваются не так сильно, как на GeForce RTX 2080 Ti. Но причина кроется в том, что компоненты VRM на GeForce RTX 2080 Ti расположены ближе к чипам GDDR6, поэтому они нагревают последние. Во время работы компоненты VRM всегда нагреваются, но в случае GeForce RTX 2080 они не приводят к столь существенному нагреву памяти.

Опять же, мы все еще не знаем, кроется ли причина проблем в перегреве. Но если это так, то риск в случае GeForce RTX 2080 намного меньше.

Обновление 3

После публикации новости прошло еще несколько дней, что позволяет взглянуть на тему с перспективы. Мы пообщались со всеми основными партнерами NVIDIA, и всегда получали один и тот же ответ: на данный момент партнеры не столкнулись со слишком большим процентом возврата видеокарт GeForce RTX, то же самое касается отдельно GeForce RTX 2080 Ti. От Caseking мы получили даже конкретные цифры. Со ссылкой на возвраты карт линейки GeForce GTX 10. У GeForce GTX 1080 возврат составил 7,1%. Что довольно высоко, учитывая типичное значение между 3 и 5%, но допустимо. У GeForce GTX 1080 Ti процент возврата составил 4,6%.

Для GeForce RTX 2080 Caseking указывает процент возврата 0,2%, а для GeForce RTX 2080 Ti - 1,4%. Значения сами по себе довольно низкие, хотя следует учитывать оговорки. Во-первых, видеокарты GeForce RTX продаются всего несколько недель. Поэтому и процент возврата со временем увеличится. Во-вторых, процент возврата стабилизируется лишь через несколько месяцев после начала продаж, чтобы число проданных видеокарт достигло большого количества. В-третьих, некоторые дефекты могут проявиться только со временем.

Также следует помнить, что Caseking продает видеокарты только от партнеров NVIDIA, в том числе ASUS, EVGA, MSI, Gigabyte. В форумах же нарекания касаются, в основном GeForce RTX 2080 Ti Founders Edition. Результаты возврата Caseking эталонных видеокарт не касаются, здесь что-то можно получить только от самой NVIDIA.

На данный момент мы не можем ни подтвердить, ни опровергнуть повышенный процент выхода из строя GeForce RTX 2080 Ti. Наши тесты пока не выявили каких-либо проблем, хотя многие пользователи в Интернете выражают недовольство.

Обновление 4

Наши коллеги с ресурса GamersNexus получили несколько видеокарт GeForce RTX 2080 Ti от пользователей. По крайней мере, в одном случае ошибку удалось исправить. "Синий экран смерти" с ошибкой "IRQL NOT LESS OR EQUAL" был связан с определенным сочетанием видеокарты и монитора. Если быть более конкретным, использовался монитор G-Sync с частотой обновления 60 Гц. На мониторах без поддержки G-Sync проблемы не было.

NVIDIA в курсе данной проблемы, в ближайшие дни выйдет новый драйвер с исправлениями. Он должен решить проблемы с подключением видеокарт GeForce RTX к мониторам G-Sync. На данный момент проблемы с GeForce RTX могут наблюдаться и в случае подключения двух или более мониторов. Впрочем, все зависит от конфигурации мониторов и системы, да и проблема скоро будет решена обновлением драйверов.

Также наши коллеги обсудили и другие возможные причины, связанные с аппаратными дефектами.

Обновление 5

После нескольких дней затишья появилась новая информация. Ресурс GamersNexus смог протестировать с десяток Founders Editions, что помогло выявить причину проблемы. У некоторых видеокарт артефакты наблюдались уже при 70 °C, другие модели работали без проблем и при нагреве памяти до 100 °C. Так что чипы Micron вряд ли являются причиной проблем.

Причина, скорее всего, кроется в нескольких проблемных точках пайки. Здесь сказываются и температура, и расширение материалов, и их взаимодействие. Чипы памяти GDDR6 и GPU припаиваются к PCB через BGA (Ball Grid Array). Маленькие шарики BGA припаиваются к соответствующим площадкам на PCB. В случае чипов памяти GDDR6 речь идет о 190 контактах. Упаковка GPU содержит порядка нескольких тысяч контактов.

Пайка производится в специальной печи методом волны. В ней паяльная паста разогревается горячим воздухом или микроволнами (в зависимости от типа машины и технологии), после чего паста скрепляет компоненты. Поскольку PCB и компоненты весьма чувствительные, использовать любые температуры не получится. Поэтому при работе печи выделяются несколько температурных зон. В зависимости от PCB и компонентов, могут быть до десяти температурных зон. Подобные процессы не так легко контролировать, поэтому могут возникать ошибки.

Подобные ошибки должны выявляться во время тестирования. 3D-рентген также обеспечивает соответствующий анализ, но для каждого узла рентген не сделаешь. Так что вполне возможно, причина сбоев видеокарт кроется в ошибке производства или припаивания.

В любом случае, все зависит от того, что именно скажет NVIDIA. Также все зависит от процента вышедших из строя видеокарт. А его пока что весьма проблематично оценить.

Обновление 6

NVIDIA вновь прокомментировала проблему. Похоже, что было проведено внутреннее расследование. Судя по всему, так и не названная проблема наблюдалась у ранних версий GeForce RTX 2080 Ti, которые были выпущены в небольшом количестве. И NVIDIA будет помогать клиентам, столкнувшимся с проблемой.

"Limited test escapes from early boards caused the issues some customers have experienced with RTX 2080 Ti Founders Edition.

We stand ready to help any customers who are experiencing problems."

Социальные сети

Ваш голос

Ø Голосование: 5

Теги

Комментарии (11)

#2
Регистрация: 28.01.2015
Москва
Постоялец
Всего сообщений: 527
На Реддит пользователи сошлись во мнении, что GDDR6 Микрон не соответствует заявленным частотам, что ведет к выходу из строя памяти и всей карты.
Налицо ошибка в проектировании всего изделия.
#3
Регистрация: 21.08.2013

Постоялец
Всего сообщений: 372
vorvort: На Реддит пользователи сошлись во мнении, что GDDR6 Микрон не соответствует заявленным частотам, что ведет к выходу из строя памяти и всей карты.
Налицо ошибка в проектировании всего изделия.


Куевое мнение в котором сошлись реддитпользователи. СпЫцЫлиты, йопта. По мне так глючит контроллер памяти, а не сама память от Микрон. Переразогнанная память артефачит, но не кидает в блюскрин. Снижайте частоту чипа на сотню-две-три мгц и глюки на какое-то время исчезнут.
#4
Регистрация: 07.09.2018

Новичок
Всего сообщений: 27
А попробуйте не с ssd стресс-тест сделать, а с hdd.
#5
Регистрация: 26.01.2015

Постоялец
Всего сообщений: 430
Там в диагнозе присутствуют и "артефакты", не только голубенький экранчик. Так что простой перегрев памяти всё таки исключать нельзя.
Но скорее всего причина на поверхности - архитектура чипа не могёт на таких частотах. Тут как в спорте, стабильность - признак мастерства. Нет стабильности, списывай в бесперспективные.
Короче, на таких частотах чип не выдерживает нагрузку. Не зря Лиза Су уже с поколения фурий делает топы с водянкой.
#6
Регистрация: 28.01.2015
Москва
Постоялец
Всего сообщений: 527
kachaev, у меня переразогнанная память на раз в синий экран выбрасывала. Еще также себя вели деградировавшие модули. Так что проблема не только в контролере.
#7
Регистрация: 21.08.2013

Постоялец
Всего сообщений: 372
vorvort: kachaev, у меня переразогнанная память на раз в синий экран выбрасывала. Еще также себя вели деградировавшие модули. Так что проблема не только в контролере.

Долго разжёвывать. Блюскринит с одновременным артефаком весь тракт памяти. Сама память только артефачит , без блю скринов. Если у тебя блюскринило при разгоне памяти - скинь частоту чипа - блюскринить перестанет. Но артефакты останутся. При повышении частоты памяти возрастает нагрузка на контроллер. Вот так.
Сдуй с платы любой модуль - только шахматка - и никаких блюскринов.

[QUOTE]Так вот, согласно данным китайского издания PConline из надёжных источников, проблема в самом графическом процессоре NVIDIA, который из-за избыточного допуска высоты GPU может оказываться или слишком высоким или слишком коротким.

И это несмотря на то, что допуски радиатора по допустимым отклонениям высоты - очень малы, что приводит к тому, что GPU с большой высотой сжимаются радиатором со слишком большой силой.

А т.к. при работе на полной вычислительной загрузке происходит тепловое расширение, то процессор в результате имеет высокую вероятность быть повреждённым, и, таким образом возникают артефакты, синий экран и прочие сбои. [/QUOTE]
Примерно так. Расшифрую . Повреждается не сам кристалл, а самое слабое место - бга пайка кристалла к подложке. Происходит так называемый "отвал чипа". И начинается это с краёв - там где распайка контроллера памяти. Это и есть повреждение процессора. Всё.
#8
Регистрация: 28.01.2015
Москва
Постоялец
Всего сообщений: 527
kachaev:

Примерно так. Расшифрую . Повреждается не сам кристалл, а самое слабое место - бга пайка кристалла к подложке. Происходит так называемый "отвал чипа". И начинается это с краёв - там где распайка контроллера памяти. Это и есть повреждение процессора. Всё.

На ру.оверах спец посчитал расширение материалов GPU при разгоне. Получилось 5 микрон. Все разговоры о допусках бред собачий. В RTX либо ошибка проектирования и перегрев памяти, либо изначально бракованные модули в огромном количестве. Как пример - авто: там бывает больше миллиона авто отзывают из-за брака. С чего ты решил, что с видеокартами такое невозможно?
#9
Регистрация: 21.08.2013

Постоялец
Всего сообщений: 372
vorvort: На ру.оверах спец посчитал расширение материалов GPU при разгоне. Получилось 5 микрон. Все разговоры о допусках бред собачий. В RTX либо ошибка проектирования и перегрев памяти, либо изначально бракованные модули в огромном количестве. Как пример - авто: там бывает больше миллиона авто отзывают из-за брака. С чего ты решил, что с видеокартами такое невозможно?


Ты иногда не понимаешь, то что читаешь. чел насчитал 5 микрон расширения в высоту. А я тебе про расширение по плоскости(краевые смещения). А там уже будет по 40-50 микрон сдвига. И разрушение бга-шаров припоя кристалла к подложке.
Вспомни эпопею с отвалом чипов от подложки у ГФ8800|9800.
Или почитай это [URL]https://sohabr.net/habr/post/371635/[/URL] и это [URL="https://forum.bits.media/index.php?/blogs/entry/89-bga-%D0%BA%D0%BE%D0%BC%D0%BF%D0%B0%D0%BD%D0%BE%D0%B2%D0%BA%D0%B0-%D1%87%D0%B8%D0%BF%D0%B0-%D0%B8-%D0%BF%D0%BE%D1%87%D0%B5%D0%BC%D1%83-%D0%BE%D1%82%D0%B2%D0%B0%D0%BB-%D1%87%D0%B8%D0%BF%D0%B0-%D0%BE%D1%82%D0%B3%D0%BE%D0%B2%D0%BE%D1%80%D0%BA%D0%B0/"]http:/BGA-компановка чипа, и почему "отвал чипа" - отговорка./[/URL] для понимания процесса.
В обоих стаьях много спорных моментов, но в выводах, а не по существу вопроса. Выводы делай сам.
#10
Регистрация: 26.01.2015

Постоялец
Всего сообщений: 430
<<Он должен решить проблемы с подключением видеокарт GeForce RTX к мониторам G-Sync.>>
Т.е. сработал замочек для АМД видеокарт? Хуан сам себе подножку подставил. :)
Если серьёзно, с другой стороны ясно же что и перегрев влияет, но про это у Хуана молчок. Значит править не будут, ну или втихую.
#11
Регистрация: 26.01.2015

Постоялец
Всего сообщений: 430
~Обновление 6~
Похоже, сработали оба варианта - и "молчок" и "править не будут".
Вам необходимо войти, чтобы оставлять комментарии!