Intel представила новую номенклатуру Xeon CPU и GPU, добавив Max

hardwareluxx news new Intel уже несколько раз упоминала варианты расширения процессоров Xeon и GPU-ускорителей Ponte Vecchio. Но конкретики до сих пор не было. Сегодня Intel раскрыла подробности, в том числе новые спецификации четвертого поколения процессоров Xeon под кодовым названием Sapphire Rapids с памятью HBM. Стали известны названия продуктов и варианты расширения GPU-ускорителей Ponte Vecchio.

Intel с новыми процессорами Xeon сфокусировалась на пропускной способности памяти, которую можно существенно увеличить благодаря HBM2e. Для GPU-ускорителей важна как емкость кэша, так и скоростное подключение внешней памяти.

SPR HBM: 56 P-ядер и различные ускорители

Процессоры Xeon четвертого поколения с кодовым названием Sapphire Rapids и поддержкой HBM2e обещают стать прорывом в сегменте дата-центров. Конкретные процессоры пока не объявлены, но вновь было упомянуто число ядер. Новые CPU будут содержать до 56 производительных ядер. Несколько моделей принадлежат к линейке Max, они оснащаются 64 Гбайт HBM2e. Пропускная способность четырех стеков составляет больше 256 Гбайт/с на стек, то есть больше 1 Тбайт/с в сумме. Восемь каналов памяти DDR4 давали всего 204,8 Гбайт/с, что позволяет сравнить возможности HBM2e.

Процессор с HBM может работать только с данным видом памяти (HBM only). Приложения оптимизировать не требуется, они будут работать с новой памятью как и прежде, разве что пропускная способность будет намного выше. Но емкость в системе 2S ограничена 128 Гбайт. Причем процессоры могут устанавливаться в серверные платы с DDR5 DIMM. В режиме "HBM Flat" будут доступны две области памяти (HBM и DDR5), которые могут использоваться приложениями после их адаптации. Но в режиме "HBM Caching" память HBM может работать в качестве кэша, здесь адаптации не требуется.

AMD тоже предлагает модели EPYC с дополнительным кэшем 3D V-Cache (Milan-X). Но Intel считает, что дает намного лучшее предложение по производительности на ватт с процессорами Sapphire Rapids – как с памятью DDR5, так и в режиме "HBM only". Здесь Intel опирается на бенчмарки HPL, HPCG и Stream Triad, приводится сравнение с предшественником Ice Lake-SP.

Xeon Max CPU позволят клиентам заменить крупные серверы с четырьмя сокетами, 64 RAM DIMM и энергопотреблением 1.640 Вт вариантами с двумя новыми процессорами Xeon с памятью HBM2e, без модулей DDR5 и с энергопотреблением всего 700 Вт.

Процессоры Xeon будут поддерживать Advanced Matrix Extensions (AMX). Intel установила в каждое производительное ядро ускоритель AMX. Также в составе SoC – технология QuickAssist Technology (ускоритель сжатия и распаковки). Также 4-е поколение Xeon получило DSA (Data Streaming Accelerator), DLB (Dynamic Load Balancer) и IMAA (In-Memory Analytics Analyzer). Все эти функциональные блоки должны помочь процессорам Xeon показать заметно более высокую производительность по сравнению с предшественниками и, в первую очередь, с конкурентами.

Кластеризация UMA для снижения задержек

Для серверных процессоров, состоящих из нескольких кристаллов, очень важны задержки и пропускные способности между чиплетами. С помощью кластеризации отдельные узлы можно отделить друг от друга, чтобы доступ к памяти не выполнялся через другие чиплеты, поскольку это увеличивает задержки.

Intel добавила к Sapphire Rapids поддержку кластеризации Sub-NUMA, известную как SNC4. Здесь четыре чиплета со своей памятью HBM и соответствующими контроллерами рассматриваются как отдельные узлы. И для некоторых приложений такое решение имеет смысл.

Но Intel также дает возможность использовать все чиплеты CPU вместе с подключенной памятью HBM как один узел NUMA с кластеризацией UMA. Агенты кэширования и контроллеры памяти оптимизированы таким образом, чтобы свести на нет недостатки по задержкам.

Intel уже анонсировала ранее, что четвертое поколение процессоров Xeon будет представлено 10 января 2023. Тогда мы узнаем тактовые частоты и полный модельный ряд Sapphire Rapids.

Ponte Vecchio: линейка Intel Datacenter Max

Некоторые подробности Ponte Vecchio GPU уже были известны. Здесь важны как скоростное подключение памяти, так и иерархия кэша. Intel решила обойтись без крупного кэша L3. И после кэша L2 емкостью до 408 Мбайт на следующем уровне работают уже 128 Гбайт памяти HBM2e. Но отметим и 64 Мбайт кэша L1.

Иерархия кэша выглядит следующим образом: 64 Мбайт Register File на ядрах Xe. Кэш L1 имеет такую же емкость 64 Мбайт. По сравнению с регистровым файлом пропускная способность кэша L1 снижается со 419 до 105 Тбайт/с. Кэш L2 имеет емкость 408 Мбайт, он превосходит размер кэша L1 в соотношении 6:1. Если верить Intel, тому были хорошие причины, поскольку некоторые приложения довольно сильно выигрывают от крупного кэша L2, хотя не все. Пропускная способность операций чтения снижается со 105 Тбайт/с у кэша L1 до 13 Тбайт/с для L2. Следующий уровень – память HBM2E с пропускной способностью 3,2 Тбайт/с.

Выше мы описали версию Ponte Vecchio с двумя стеками. Но Intel сначала выпустит Max Series GPU 1100 – карту PCI Express с одним стеком Ponte Vecchio, то есть как бы половинку. GPU предоставит 56 ядер Xe, 48 Гбайт HBM2e и "всего" 32 Мбайт кэша L1 и 204 Мбайт кэша L2. TDP Max Series GPU 1100 составит 300 Вт. Через мост Xe-Link можно объединять до четырех таких ускорителей.

Для более крупных систем Intel предложит варианты OAM ускорителей Ponte Vecchio. Здесь будет выпущен флагман Max Series GPU 1550 со 128 ядрами Xe и 128 Гбайт памяти HBM2e. TDP составит 600 Вт, восемь модулей могут объединяться через 53G Slides. Также будет представлена уменьшенная версия Max Series GPU 1350 со 112 ядрами Xe, 96 Мбайт HBM2e и TDP 450 Вт.

Подсистема Datacenter GPU Max будет опираться на четыре модуля OAM. Если ориентироваться на Max Series GPU, TDP подсистемы составит 1.800 или 2.400 Вт, емкость памяти HBM2e составит до 512 Гбайт. Четыре модуля будут связываться через Xe-Link.

Наконец, Intel поделилась своими планами. На них значатся процессоры Sapphire Rapids с известным ранее преемником Emerald Rapids, однако без варианта Max Series с HBM.

Sapphire Rapids будут выпускаться параллельно с Emerald Rapids. Как известно из предыдущих публикаций Intel, процессоры Emerald Rapids тоже будут производиться по техпроцессу Intel 7, они ожидаются на рынке уже в 2023 году. А в 2024 последуют Granite Rapids. Эти процессоры будут производиться уже по технологии Intel 3. Параллельно выйдут Sierra Forrest – первые процессоры Xeon только на эффективных ядрах.

Intel уже раскрыла кодовые названия и некоторые подробности преемника Rialto Bridge для GPU-ускорителей. Чипы будут устанавливаться на существующие платы, то есть здесь обеспечивается совместимость OAM. Но Intel указывает для Rialto Bridge энергопотребление до 800 Вт. Что следует учитывать, устанавливая новый GPU. Полную производительность Rialto Bridge сможет выдать только в формате OAM V2. Число ядер Xe будет увеличено до 160.

Ускорители Datacenter Max Series выйдут в 2023 году. Как и в случае процессоров Sapphire Rapids, Intel уже тестирует аппаратные компоненты со своими партнерами, чтобы избежать каких-либо сюрпризов, когда продукты станут доступны для широкой аудитории.

CPU и GPU будут объединены

Следующим шагом Intel объединит x86 CPU и Xe GPU. Чипы Falcon Shores XPU будут использовать ядра Intel x86 и Xe GPU, но не только: через UCI можно будет интегрировать другие чиплеты. Intel впервые рассказала о данной стратегии XPU в начале года.

Подписывайтесь на группу Hardwareluxx ВКонтакте и на наш канал в Telegram (@hardwareluxxrussia).

Мы рекомендуем ознакомиться с нашим руководством по выбору лучшего процессора Intel и AMD на текущий квартал. Оно поможет выбрать оптимальный CPU за свои деньги и не запутаться в ассортименте моделей на рынке.