> > > > Вычислительные ошибки NVIDIA Titan V приводят к сбоям в научных расчетах

Вычислительные ошибки NVIDIA Titan V приводят к сбоям в научных расчетах

Опубликовано:

nvidia-titanvРазработчики обратились за помощью к изданию TheRegister.co.uk, указывая на вычислительные ошибки, которые возникают в научных приложениях на NVIDIA Titan V (тест). В принципе, ничего необычного в ошибках нет, но, как правило, они перехватываются системой определения ошибок, поскольку в научной сфере вопрос корректности данных стоит на первом месте.

Расчеты симулируют взаимодействие между протеинами и энзимами. С одними и теми же спецификациями исследователи получали разные результаты при разных прогонах. Тесты проводились на четырех топовых GPU, при этом два GPU давали арифметические ошибки в 10% случаев. Тест разработан таким образом, что он должен всегда обеспечивать идентичные результаты.

Причин подобного поведения два. Первая: сам чип или архитектура Volta. Подобная аппаратная ошибка кажется наиболее серьезной. Вторая: ошибка, возможно, проявляется на уровне драйвера, компилятора или программной инфраструктуры. В таком случае ее будет довольно легко исправить.

Еще одним "слабым звеном" может быть память High Bandwidth Memory. На Titan V данная память работает на 850 МГц с пропускной способностью 652,8 Гбайт/с по 3.072-битному интерфейсу. Подобные арифметические ошибки могут возникать из-за битовых ошибок памяти. Без коррекции ECC (Error Correcting Code) данные ошибки не определяются, поэтому они переходят дальше, в расчеты. Напомним, что у Titan V технология ECC не активна, в случае же ускорителей Tesla V100 для дата-центров ECC уже работает, а память HBM2 подключается на частоте 879 МГц.

Поэтому весьма велика вероятность возникновения битовых ошибок именно в памяти HBM2, и если на ускорителях Tesla V100 они определяются благодаря ECC, то в случае Titan V такой поддержки нет. У памяти HBM2 есть встроенная поддержка ECC, но на видеокартах потребительского класса она выключена.

Пока что вопросов больше, чем ответов. Точные причины ошибок в расчетах неизвестны. Причин может быть много, и не все они связаны со сферой ответственности NVIDIA. Мы запросили у NVIDIA дополнительную информацию. На следующей неделе открывается конференция GPU Technologies Conference, поэтому данная тема наверняка всплывет.