NVIDIA решила представить новую архитектуру GPU под названием Turing не на игровой выставке GamesCom на следующей неделе, а на проходящей в канадском Ванкувере конференции SIGGRAPH. Также NVIDIA показала первые ускорители. Конференция SIGGRAPH была выбрана не зря, NVIDIA сфокусировалась на профессиональных решениях.
С объявлением NVIDIA RTX и Microsoft DXR NVIDIA подчеркнула возможность трассировки лучей в реальном времени. На Games Developer Conference NVIDIA, Microsoft и другие партнеры показали соответствующие возможности в играх. Но NVIDIA Titan V остается единственной видеокартой с поддержкой соответствующего аппаратного ускорения помимо моделей Tesla на архитектуре Volta.
Архитектура Turing с новыми ядрами Tensor
Новые ядра Tensor остаются наиболее важной частью архитектуры Turing. Мы уже знакомы с данными ядрами по архитектуре Volta. Они позволили NVIDIA увеличить производительность вычислений FP32, важную для сетей глубокого обучения, до 120 TFLOPS. Каждое ядро Tensor может обрабатывать матрицу 4 x 4 x 4 в виде D = A x B + C. Входные матрицы A и B относятся к типу FP16, для сложения может использоваться матрица FP16 или FP32. Данные ядра Tensor присутствуют и в архитектуре Turing.
Ядра Tensor были обновлены. Кроме вычислений FP16, INT8 и INT4 они теперь поддерживают более высокую производительность inferencing, то есть обработку запросов в сети глубокого обучения. NVIDIA указывает вычислительную производительность новых ядер Tensor на уровне 125 TFLOPS (FP16), 250 TOPS (INT8) и 500 TOPS (INT4).
Также добавлены новые ядра Tensor для трассировки лучей. Они называются ядрами RT, они поддерживают вычисления FP16, FP32 и INT8, которые нужны для трассировки лучей. Ядра RT специализированы под расчет лучей света и звука, они позволяют архитектуре Turing достичь 25-кратного прироста производительности в данной области. NVIDIA также объявила, что производительность растеризации Turing в три раза превышает таковую у Pascal.
Как указывает NVIDIA, старший чип Turing имеет площадь 754 мм², что ненамного меньше 815 мм² у GV100 GPU. Число транзисторов составляет 18,6 млрд., что меньше 21,1 млрд. у GV100 GPU. Так что NVIDIA наверняка перешла на улучшенный 12-нм техпроцесс на заводах TSMC. Но пока это не подтверждено.
Пока что NVIDIA не представила других подробностей архитектуры Turing, упомянув, что на ее разработку ушло 10.000 человеко-лет. Что примерно соответствует архитектуре Volta, для последней была названа и стоимость разработки - 2 млрд. долларов США.
Quadro RTX GPU и до 48 Гбайт GDDR6
На SIGGRAPH NVIDIA также представила три ускорителя Quadro, которые используют GPU на новой архитектуре Turing.
Модель | Quadro RTX 8000 | Quadro RTX 6000 | Quadro RTX 5000 |
Рекомендованная цена | 10.000 USD | 7.000 USD | 3.000 USD |
Технические спецификации | |||
---|---|---|---|
Архитектура GPU | Turing | Turing | Turing |
Потоковые процессоры | 4.608 | 4.608 | 3.072 |
Память | 48 GB GDDR6 | 24 GB GDDR6 | 16 GB GDDR6 |
Ядра Tensor | 576 | 576 | 384 |
Производительность трассировки лучей | 10 гигалучей/с | 10 гигалучей/с | 6 гигалучей/с |
Все карты поддерживают NVLink 2.0 с пропускной способностью 100 Гбайт/с. Две карты можно соединять друг с другом через упомянутый интерфейс. Доступная память в таком случае удваивается. То Quadro RTX 8000 может использовать 96 Гбайт GDDR6, Quadro RTX 6000 и RTX 5000 - 48 и 32 Гбайт GDDR6, соответственно.
Все карты в качестве видеовыхода используют VirtualLink. К данному интерфейсу можно подключить очки виртуальной реальности, используя кабель. Консорциум VirtualLink для этой цели разработал собственный вариант USB Type C. Шесть линий используются для передачи данных, четыре зарезервированы для одного выхода DisplayPort HBR 3. А две дополнительные линии обеспечивают передачу данных USB 3.1 Gen 2. Кроме того, кабель может подавать на очки VR до 27 Вт мощности.
Упомянутые 27 Вт для интерфейса VirtualLink входят в бюджет энергопотребления Quadro RTX 8000. Он составляет 300 Вт, так что на сам ускоритель остается 250-270 Вт. Память GDDR6 ускорителей Quadro RTX 8000 и Quadro RTX 6000 подключается по 384-битному интерфейсу. Частота памяти составляет 1.750 МГц, что дает пропускную способность 672 Гбайт/с. У Quadro RTX 5000 используется 256-битный интерфейс памяти, пропускная способность составляет 448 Гбайт/с. Данные значения предсказуемо ниже, чем в случае памяти HBM2 с 3.072- или даже 4.096-биным интерфейсом, но по сравнению с памятью GDDR5(X) мы получаем 30% прирост при 384- или 256-бином интерфейсе
Quadro RTX 8000 и RTX 6000 с 4.608 потоковыми процессорами обеспечивают вычислительную производительность 16 TFLOPS. Но пока не совсем понятно, какой тип данных здесь подразумевается. Ускоритель Tesla V100 показывал 15,7 TFLOPS с одинарной точностью, при этом он был оснащен 5.120 потоковыми процессорами.
Улучшенные ядра Tensor позволяют достичь производительности 500 TOPS (INT4). Если опираться на сведения NVIDIA о 576 ядрах Tensor в Quadro RTX 8000 and 6000, NVIDIA более чем учетверила вычислительную производительность тензорных ядер - у NVIDIA Tesla V100 мы получали 125 TOPS на 640 ядрах Tensor, производительность INT4 по-прежнему в два раза выше INT8.
Еще одним интересным решением должны стать серверы Quadro RTX. Они представляют собой облачные серверы с новыми ускорителями, к которым пользователи могут обращаться через Интернет. Облачные серверы обеспечивают хорошую гибкость конфигурации, поэтому они обещают стать весьма выгодным по цене решением.
Новые ускорители Quadro RTX и серверы будут доступны в четвертом квартале. Точной даты NVIDIA не называет.
Взаимодействие между аппаратными и программными компонентами становится все более важным
Кроме аппаратных решений NVIDIA представила платформу разработчика под названием RTX. Она обеспечивает все необходимые интерфейсы, чтобы разработчик смог задействовать аппаратные функции (ядра Tensor и RT). Сюда же можно отнести и NGX - "NVIDIA technology for bringing artificial intelligence into the graphics pipeline", то есть технологию NVIDIA, способную добавить искусственный интеллект в графический конвейер.
Из программных пакетов, поддерживающих RTX и NGX, названы Adobe Dimension CC, Autodesk Arnold, Dassault Systèmes 3DEXPERIENCE CATIA, EA SEED, Epic Games Unreal Engine, Otoy OctaneRender и Pixar Renderman.
Еще одним анонсом стал MDL - Open Source Material Definition Language SDK. NVIDIA MDL SDK может передавать свойства материала и соответствующие симуляции в различные приложения. То есть разработчики смогут использовать единый набор данных, начиная с первых этапов и заканчивая редактором 3D-движка. Epics Unreal Studio 4.20 уже поддерживает NVIDIA MDL SDK.