NVIDIA представила Tegra X1 на GPU Maxwell – первую SoC с вычислительной производительностью 1 TFLOP (обновление)

Опубликовано:

nvidia 2013В старых добрых традициях на своей пресс-конференции NVIDIA рассказала о новом поколении Tegra. Первая информация о Erista появилась весной 2014 на собственной конференции NVIDIA GTC 2014. Судя по ней, SoC будет очень похожа на Tegra K1, то есть будет содержать кластер GPU настольной архитектуры, но уже нового поколения "Maxwell". Окончательный продукт получил название Tegra X1, от Tegra K1 он отличается как раз блоком GPU на архитектуре "Maxwell", и через некоторое время мы должны получить на рынке первые продукты на новой SoC.

Иллюстрация Tegra SoC X1
Иллюстрация Tegra SoC X1

За вычислительную производительность Tegra X1 отвечают 2x по четыре ядра ARM CPU. В каждом случае используются четыре ядра ARM дизайна Cortex A57 или Cortex A53. NVIDIA, таким образом, изменила концепцию big.LITTLE у ARM, в которой четыре мощных ядра дополняются четырьмя более экономичными ядрами, и в зависимости от приложения происходит переключение между ними. Tegra K1 также была доступна в версии, содержащей ядро Companion Core для менее сложных вычислений, которые снимают нагрузку с более "прожорливых" ядер. Что будет с Project "Denver" и ядрами CPU, разработанными для данного варианта Tegra K1, пока не совсем понятно. В любом случае, часть CPU дополняет упомянутый выше кластер GPU "Maxwell" с 256 потоковыми процессорами. Оба компонента позволяют достичь вычислительной мощности 1 TFLOP, а также обеспечивают воспроизведение видео 4K с частотой кадров 60 fps. Не менее впечатляющей стала демонстрация Unreal Engine 4. А именно, демо Elemental на Tegra X1. Энергопотребление чипа составляет 10 Вт, он производится по 20-нм техпроцессу. Для сравнения, Xbox One потребляет в схожей задаче около 100 Вт, а видеокарта NVIDIA возрастом около двух лет – 300 Вт. Конечно, в демо Elemental на Tegra X1 отсутствовали некоторые эффекты частиц, что несколько подпортило впечатление.

Elemental demo на Unreal Engine 4 на Tegra X1
Elemental demo на Unreal Engine 4 на Tegra X1

Для ещё одного сравнения был взят суперкомпьютер ASCI Red возрастом 15 лет. Данная система работала в Сандийских национальных лабораториях Министерства энергетики США, суперкомпьютер занимал площадь 1.600 квадратных футов и потреблял 500.000 Вт энергии. Ещё 500.000 Вт требовалось для охлаждения помещения. Tegra X1 достигает упомянутой вычислительной мощности 1 TFLOP при размере с ноготь, потребляя всего 10 Вт.

Сфера применения Tegra X1 понятна: NVIDIA продолжит ориентироваться на рынок планшетов, но также и на автомобильную индустрию. Но Tegra X1 ещё предстоит доказать высокую эффективность при максимальной производительности, а также экономичность на повседневных задачах. На раннем этапе разработки чипа NVIDIA ещё не может предъявить подобных свидетельств. Последние годы NVIDIA пытается "отъесть" значимую долю на рынке SoC планшетов, но пока что она измеряется одним разрядом. Что касается интерфейсов и API, то SoC вполне готова к 2015 году. Она поддерживает DirectX 12, OpenGL 4.5, CUDA, OpenGL ES 3.1 и Android Extension Pack.

Elemental Demo на Unreal Engine 4 на Tegra X1
Elemental Demo на Unreal Engine 4 на Tegra X1

Обновление:

Между тем мы смогли получить дополнительную информацию о Tegra X1. Он использует две четвёрки разных ядер CPU, но не в конфигурации ARM big.LITTLE. Используется отдельный интерконнект, но не ARM CCI-400. Вместо распределения задач по кластерам 2x 4 ядра, они могут масштабироваться по всем восьми ядрам. И разработчики приложений могут задействовать все восемь ядер. Четыре ядра A57 оснащены 2 Мбайт общего кэша L2 и по 48 или 32 кбайт кэша L1 на ядро (инструкции и данные). Кластер A53 оснащен 512 кбайт общего кэша L2 для всех четырёх ядер. Доступны по 32 кбайт кэша L1 на ядро для инструкций и данных.

Elemental Demo на Unreal Engine 4 на Tegra X1
Elemental Demo на Unreal Engine 4 на Tegra X1

Теперь можно ответить на вопрос, почему NVIDIA не использовала собственные ядра "Denver". С двумя кластерами A57 и A53 SoC Tegra X1 попросту работает быстрее, чем с ядрами "Denver". Project "Denver", скорее всего, будет играть свою роль в следующем поколении SoC Tegra "Parker".

За пределами CPU и GPU у Tegra X1 тоже произошли некоторые изменения. NVIDIA изменила интерфейс памяти с 64-битного LPDDR3 на 64-битный LPDDR4, что позволило ускорить пропускную способность памяти с 14,9 Гбайт/с до 25,6 Гбайт/с. Это, скорее всего, и позволило обеспечить кодирование и декодирование видео 4K со скоростью 60 fps. Выиграют и приложения, интенсивно нагружающие графическую подсистему. Что касается интерфейсов подключения дисплея, то здесь добавился HDMI 2.0, чтобы поддержать соответствующее разрешение и частоту кадров.

Архитектура "Maxwell" ещё сильнее сближает настольные и мобильные продукты. Та же функция сжатия памяти поддерживается и чипом Tegra X1, что можно только приветствовать при 64-битном интерфейсе памяти. То же самое касается и эффективности архитектуры "Maxwell". Но есть и ряд уникальных функций "Maxwell", которые пока нашли своё применение только в Tegra X1.

Elemental Demo на Unreal Engine 4 на Tegra X1
Elemental Demo на Unreal Engine 4 на Tegra X1

Здесь можно отметить поддержку "Double Speed FP16". В архитектуре "Fermi" и "Kepler", как и в "Maxwell", используются выделенные ядра CUDA FP32 и FP64. Имеются такие ядра и в кластере "Maxwell" Tegra X1. Но вычисления FP16 в данном сегменте играют намного более важную роль. Поэтому NVIDIA внесла ряд изменений в обработку этих вычислений FP16, чтобы они выигрывали от выделенных ядер FP32. Вычисления FP16 со схожими операциями объединяются, что позволяет обрабатывать их на ядрах FP32. Например, можно объединить две операции сложения или две операции умножения. Операции FP16 в экосистеме Android довольно важны, например, в играх или при обработке фотографий и видео. Конкуренты ARM, те же Imagination Technology и AMD поняли это довольно давно. В данной сфере NVIDIA Tegra X1 будет обеспечивать существенно больше производительности.

NVIDIA Tegra K1 и Tegra X1 в сравнении
Модель Tegra K1 Tegra X1
Технические спецификации
Архитектура Kepler Maxwell
Техпроцесс TSMC 28 нм TSMC 20 нм
Потоковые процессоры 192 256
Текстурные блоки 8 16
Конвейеры растровых операций (ROPs) 4 16
Тактовая частота GPU около 950 МГц около 1.000 МГц
Тактовая частота памяти 930 МГц 1.600 МГц
Тип памяти LPDDR3 LPDDR4
Ширина шины памяти 64 бит 64 бит
Производительность FP16 365 GFLOPS 1.024 GFLOPS
Производительность FP32 365 GFLOPS 512 GFLOPS