> > > > Экскурсия в NVIDIA Failure Lab: тесты 10-нм GPU

Экскурсия в NVIDIA Failure Lab: тесты 10-нм GPU

Опубликовано:

nvidia 2013Перед конференцией GPU Technology Conference 2016, на которой, в том числе, была представлена новая технология Pascal, несколько редакторов были приглашены посетить NVIDIA Failure Lab. Лаборатория находится в Санта-Кларе (Калифорния), она должна гарантировать, что в дизайне чипа нет ошибок, как их не возникнет и при последующем производстве.

Важность этой темы NVIDIA хорошо понимает после позднего старта архитектуры Fermi. В то время возникли проблемы, которые симуляция GPU или отдельных компонентов GPU не могла выявить – они проявили себя только на готовом кристалле. NVIDIA использовала так называемые потоковые мультипроцессоры SMS (Streaming Multiprocessors), которые через интерконнекты соединялись друг с другом и с контроллером памяти. Соединение SMS и памяти выполнялось через так называемые линии "Fabric", представляющие собой тонкие проводники. Они работали на очень высоких частотах, и из-за близости отдельных компонентов друг к другу возникали проблемы ЭМИ. Когда первые чипы Fermi покинули завод, SMS сами по себе работали без проблем. Трудности возникали при передаче данных между SMS или между SMS и памятью. Именно они послужили причиной, почему NVIDIA пришлось разработать степпинг A3. С более свежими архитектурами Kepler, Maxwell и Pascal NVIDIA научилась на своих ошибках.

Но вернемся к нашему визиту в Failure Lab. Тур проводил Говард Маркс (Howard Marks), директор технологических операций Silicon Failure Analysis Lab NVIDIA. Поскольку NVIDIA не имеет собственного производства и вынуждена выпускать кристаллы у контрактных производителей, таких как TSMC, Failure Lab призвана предотвращать проблемы, подобные описанным выше. Каждый месяц с конвейера выходят 10 миллионов GPU и SoC, так что даже небольшая доля негодных кристаллов будет заметна.

Заставить вместе работать 8 млрд. транзисторов нелегко, а у GP100, пока что единственного представленного чипа на архитектуре Pascal, используется целых 15,3 млрд. транзисторов. Но транзисторы – не единственный источник ошибки. Проводники (fabric), отвечающие за передачу сигналов внутри GPU, между разными компонентами (потоковые процессоры, кэши, регистры и т.д.) тоже могут привести к сбоям, как показала архитектура Fermi в 2009/2010 годах.

Штаб-квартира NVIDIA в Санта-Кларе, США
Штаб-квартира NVIDIA в Санта-Кларе, США

NVIDIA использует несколько методов анализа для изучения кристаллов, чтобы избежать ошибок. Для этого, например, применяются электронные микроскопы с увеличением до 300.000 крат. В паре с рентгеновским просвечиванием такой подход позволяет просматривать и распознавать материалы в разных слоях чипа, чтобы находить ошибки в конструкции. Например, можно определить какие-либо неоднородности и дефекты в материале. Для анализа более тонких структур применяется ионный микроскоп с увеличением до 1.500.000 крат. Поскольку электронные инструменты очень чувствительные, NVIDIA экранировала некоторые области лаборатории. Простой голос человека в такой области может привести к некорректному считыванию данных.

Если необходимо убрать первый слой или несколько слоев, подобные микроскопы используются с лучом галлия. Пучок тяжелых атомов пробивает отверстия в слоях чипа. С помощью микроскопа AFM (Atomic Force Microscope) небольшие области чипа можно анализировать вплоть до отдельных атомов. Например, если будет обнаружен сбой транзистора, то его можно анализировать на атомном уровне.

Анализ 10-нм GPU

Анализ с помощью микроскопа AFM играет все более важную роль в деятельности лаборатории, на данный момент сотрудники анализируют GPU, выпускаемые по 10-нм техпроцессу. Перед нами либо уменьшение техпроцесса архитектуры Pascal, либо уже преемник под названием Volta.

Ошибки могут возникать не только на самом чипе, но и в межсоединениях печатной платы или упаковки, в которую устанавливается кристалл GPU. Здесь NVIDIA использует трехмерный рентгеновский анализ. Особое внимание уделяется контактам BGA (Ball Grid Arrays), маленьким шарикам снизу каждого чипа, которые припаиваются к подложке. Даже небольшие отклонения могут привести к отсутствию контакта одного шарика. В современных чипах BGA используются тысячи таких шариков, и все они должны обеспечивать безупречный контакт.

Чтобы найти ошибку, чип медленно поворачивается во время непрерывной рентгеновской съемки, что позволяет получить проекцию со всех стороны. Это касается не только соединения между GPU и печатной платой, но и самой упаковки с GPU. Маленькие шарики чипа должны передавать сигнал крупным шарикам BGA упаковки. Здесь тоже могут возникнуть ошибки. Именно по этой причине рентгеновский анализ должен проводиться в 3D. В общей сложности создается 1.600 изображений чипа. Затем они преобразуются в 3D-структуру или видеоролик. Данная операция ранее занимала 11 часов. Благодаря быстрым видеокартам Quadro (NVIDIA не может без саморекламы) сейчас на операцию уходит всего три минуты.

Модули Tesla P100 с GPU GP100 в QuantaPlex T21W-3UМодули Tesla P100 с GPU GP100 в QuantaPlex T21W-3U

Модули Tesla P100 с GPU GP100 в QuantaPlex T21W-3U

В Failure Lab проводится калибровка температурных сенсоров внутри кристалла GPU. Напомним, что сенсоры стали более важны после внедрения механизмов Boost, поскольку измерение температуры на поверхности не дает полной картины. Но внутренние температурные сенсоры необходимо калибровать – не для каждого кристалла GPU, но для каждого степпинга (например, GM200-310, GM200-400, и т.д.). Для этой цели используются инфракрасные термометры, поскольку кремний прозрачен для ИК-лучей, подобно стеклу для видимого диапазона света. Конечно, в обоих случаях часть лучей поглощается, но данная аналогия позволяет понять, почему используются ИК-лучи.

Измерения позволяют получить данные температуры со многих участков GPU. Инженеры оценивают, как быстро нагреваются участки, как быстро они охлаждаются вновь. Таким образом, NVIDIA может определить, какую нагрузку выдержит GPU до перегрева. Конечно, в каждый квадратный миллиметр датчик не встроишь, но с помощью математической модели можно рассчитывать прогнозируемые значения. Когда вы смотрите температуру GPU в системе, то получаете значение как раз данного датчика. NVIDIA также использует показания датчиков для разных механизмов энергосбережения. Также ИК-анализ позволяет определять неработающие транзисторы, которые попросту не выделяют тепла.

Инженеры NVIDA проверяют целостность прохождения сигналов гигагерцового диапазона в разных точках. До определенных мест чипа сигнал должен доходит без искажений. Если сигнал не доходит, то наверняка имеет место какой-либо дефект, который анализируется с помощью других методов.

Последняя остановка – лаборатория ESD Lab. Электронные компоненты, такие как GPU, очень чувствительны к электростатическим разрядам, NVIDIA использует различные защитные механизмы внутри GPU для предотвращения негативного влияния. Например, каждый чип на контактах ввода/вывода должен выдерживать до 3.500 В. Пройти данный тест как раз помогают механизмы защиты от электростатического разряда. Если чип не проходит тест, то применяются другие методы анализа для поиска дефектов.

Мы рекомендуем посмотреть видеоролик видеоблоггера Blunty, который тоже был на экскурсии в Failure Lab.