ARM раскрыла первые подробности дизайнов Neoverse V1 и N2

Опубликовано:

armЕще осенью прошлого года ARM рассказала о поставленных целях по производительности новых дизайнов для дата-центров Neoverse V1 и N2. А именно +50 и +40% по однопоточной производительности. Теперь цели подтверждены, но ARM поделилась и новыми подробностями.

ARM еще раз подчеркивает преимущества серверных процессоров на архитектуре ARM, чему способствует и текущее положение на рынке. Однако представленные разработки - лишь верхушка айсберга. В качестве доказательной базы ARM приводит информацию о поставках новых процессоров Amazon, которая уже опирается на дизайн Neoverse (Graviton2) для сервиса AWS. В 2020 году 49% новых заказанных инстанций опирались на процессоры Graviton. Между серединой 2020 года и нынешними днями процент заказа процессоров ARM резко вырос, а процессоры Xeon и EPYC в новых заказах продолжают снижаться.

И здесь ARM видит потенциал дальнейшего роста. NVIDIA тоже недавно представила Grace, процессор для дата-центров на будущем дизайне Neoverse.

С новыми дизайнами Neoverse V1 и N2 ARM закрывает две наиболее важных сферы применения подобных процессоров. Производительность Neoverse V1 в расчете на ядро идентична современным микроархитектурам, но при этом энергопотребление намного ниже. Дизайн ориентирован на сценарии HPC, где основной акцент ставится на производительность.

Дизайн Neoverse N2, с другой стороны, должен найти более широкое применение. Производительность в расчете на поток будет чуть выше конкурентов, но эффективность - значительно выше. ARM видит применение дизайна N2 от периферийных вычислений до облачных.

Есть и первые реализации ядер V1, вернее, дизайна. SiPearl лицензировала дизайн для чипа European HPC под названием Rhea. В Индии будет построена система Exescale на дизайне Neoverse V1, а в Корее ETRI планирует специальные ускорители на Neoverse V1, HBM2E и DDR5.

Конечно, для получения прироста производительности 40-50% по однопоточным приложениям, ARM пришлось существенно переработать ядра. Если ядра дизайна N1 были во многом эквивалентны ядрам Cortex A76, ядра V1 и N2 были полностью переработаны.

Neoverse N1 против V1

Neoverse N1Neoverse V1
Fetch 4-Wide8-Wide
Decode 4-Wide5-8 Wide
Dispatch/Issue 8-Wide15-Wide
Back-End 2x ALU
2X NEON
2x SVE
4x NEON
4x ALU

Передняя и задняя часть конвейера стали намного шире. Число блоков выборки (Fetch) было удвоено, ступень декодирования стала шире и более гибкой. Также двоилась ширина блоков Dispatch/Issue. Все эти шаги необходимы, чтобы снабжать вычислительные блоки данными. Для дизайна Neoverse N1 ARM предусмотрела два АЛУ, и Complex ALU для умножения и деления, а также два 128-битных блока SIMD (NEON), которые выполняют векторные операции и операции с плавающей запятой.

Дизайн Neoverse V1 использует четыре блока NEON. Кроме того, имеются четыре блока АЛУ и два блока Scalable Vector Extension (SVE) шириной 256 бит каждый. Векторные вычисления поддерживают размер от 128 до 2.048 бит. Так что минимальный размер вектора составляет 128 бит. Если процессор оснащен аппаратными блоками, которые могут вычислять 256-битные векторы, то расчет 512-битных векторов разделяется на две задачи. Но все это выполняется автоматически, разработчикам ПО не требуется вносить никаких изменений. С другой стороны, если аппаратные блоки могут работать с 1.024-битными векторами, то они могут вычислять несколько 128-битных векторов одновременно. И здесь тоже разработчикам кода не требуется вносить какие-либо изменения.

Как видим, передняя и задняя часть конвейеров дизайна Neoverse V1 были переработаны для увеличения вычислительной производительности.

В случае дизайна V1 в фокусе остаются блоки SVE. То есть расширения, ускоряющие векторные вычисления, становятся очень важными. ARM недавно представила Armv9, новое расширение набора инструкций AArch64, которое обеспечивает поддержку SVE и SVE2. Neoverse N2 будет первой архитектурой на Armv9, а дизайн V1 - последней реализацией на Armv8.4. Блоки SVE будут добавляться в специализированных дизайнах, например, в процессорах Fujitsu A64FX, которые используются в самом быстром суперкомпьютере в мире.

В целом, дизайн Neoverse V1 обеспечит в два раза большую производительность с плавающей запятой при прежнем числе ядер. ARM обещает прирост 1,8x для векторных вычислений и в четыре раза для сценариев машинного обучения.

Neoverse N2 фокусируется иначе

Если дизайн Neoverse V1 явно акцентирует производительность, то Neoverse N2 ориентирован на другой рынок. Здесь важна производительность на ватт, поскольку процессоры будут использоваться не только в дата-центрах, но и ближе к пользователю, на периферии, где требуется высокая вычислительная производительность, но есть ограничения по охлаждению и энергопотреблению.

Как и в случае ядер V1, ARM обеспечивает поддержку только одного потока на ядро. Если на ядро выполняются два или больше потоков, теперь выполняется более эффективное распределение ресурсов.

Дизайн Neoverse N2 станет первым с поддержкой SVE2. SVE2 - набор команд, который включает SVE и NEON.

Благодаря использованию инструкций Armv9, процессоры дизайна N2 станут более гибкими и более защищенными. ARM обещает прирост производительности на 20-40% по сравнению с дизайном N1.

Ожидаемая производительность

Конечно, результаты производительности остаются прогнозами ARM, и пока ничего не меняется. В прошлом прогнозы хорошо соответствовали результатам производительности после выхода чипов, но ARM пока не может представить результатов аппаратных чипов.

ARM использует дизайн Neoverse N1 на 64 ядрах для сравнения с процессорами Intel (Ice Lake-SP) и AMD (EPYC 7003). Если учитывать критерий максимального числа ядер, ARM оказывается позади с дизайном Neoverse N1 в расчете на сокет, но компания подчеркивает убедительную производительность в расчете на поток. Дизайн Neoverse N2 призван вернуть былое лидерство, как по производительности на поток, так и на сокет. Здесь важна архитектура, но также и возможность расширить число ядер на сокет до 128. В сегменте периферийных вычислений ARM видит свое преимущество с дизайном Neoverse N2 и 32 ядрами.

Что касается сегмента HPC, дизайн Neoverse V1 превосходит все, что есть на рынке. Но, опять же, по прогнозам ARM. На данный момент дизайн с 96 ядрами можно назвать сбалансированным. Но можно установить и больше 96 ядер, даже больше 128 ядер в дизайне Neoverse V1. ARM добавила расчет производительности на ватт.

По тактовым частотам ARM разделяет дизайны Neoverse N2 и на 2,7 ГГц (Edge) и 3,0 ГГц (Cloud). Дизайн Neoverse V1 заявлен на 2,6 ГГц. Ampere Altra с 80 ядрами Neoverse N1 работает на 3,3 ГГц и производится по 7-нм техпроцессу. AWS Graviton2 с 64 ядрами работает на 2,5 ГГц.

Быстрые ядра и ускоренная платформа

Вместе с дизайнами Neoverse V1 и N2, ARM представила когерентную mesh-сеть. Речь идет о Neoverse CMN-700.

Максимальное число ядер, которыми может управлять CMN-700, выросло в четыре раза по сравнению с предшественником. До сих пор ARM рассматривала для дизайнов Neoverse V1 и N2 32, 96 или 128 ядер. Но 256 ядер на сокет и 512 ядер для системы 2S тоже вполне возможны. При этом кэш System Level Cache (SLC) увеличен в четыре раза с 128 до 512 Мбайт.

Кроме большего числа ядер, mesh-сеть CMN-700 может работать с 40 портами памяти (такими как интерфейсы DRAM или HBM PHY) вместо 16. Увеличилось и число узлов, с которыми может работать mesh-сеть.

Важно и увеличение числа интерконнектов CCIX, теперь доступны 32 вместо четырех. Данные интерконнекты можно использовать для подключения дополнительных чипов. Наконец, mesh-сеть CMN-700 поддерживает CXL 2.0, что позволяет подключать ускорители или другие компоненты.

Первые процессоры на дизайне Neoverse V1 должны выйти до конца года. Они будут производиться по 7- или 5-нм техпроцессу, в зависимости от возможностей клиента по заказу у контрактного производителя. Процессоры с дизайном Neoverse N2 выйдут позднее, они будут производиться уже по 5-нм техпроцессу.

Подписывайтесь на группы Hardwareluxx ВКонтакте и Facebook, а также на наш канал в Telegram (@hardwareluxxrussia).