Страница 2: Производительные и эффективные ядра

Поскольку новые процессоры Alder Lake относятся к производительному гибридному дизайну, Intel выбрала две архитектуры, которые работают совместно. Крупные ядра x86 опираются на дизайн Golden Cove, преемника Willow Cove в процессорах Tiger Lake с техпроцессом Enhanced 10 нм, а также Cypress Cove у предшественника Rocket Lake. Младшие эффективные ядра под названием Gracemont являются преемниками ядер Tremont, которые использовались в процессорах Atom и Lakefield.

Производительные ядра Golden Cove

Ядра Golden Cove используются не только в дизайне Alder Lake для настольных и мобильных CPU, но также в процессорах Xeon Sapphire Rapids, которые будут объявлены до конца 2021 года.

Intel сделала переднюю часть конвейера Golden Cove более широкой. Кэш микроопераций содержит намного больше записей, причем обрабатываются они быстрее. Отметим улучшения предсказаний ветвлений и более крупные буферы TLB. Все это позволяет обрабатывать больше инструкций за такт.

Фронтальная часть конвейера содержит 12 исполнительных портов. По сравнению с Willow Cove здесь есть дополнительный целочисленный порт, который не ориентирован на какие-либо специальные задачи, в отличие от остальных портов, а предназначен для стандартных наборов инструкций. Векторные блоки поддерживают инструкции AVX 512 и ускоряют матричные вычисления через AMX в дополнение к вычислениям FP16. Но для AMX требуется программная поддержка, но при этом Intel обещает в идеальных условиях ускорение до восьми раз.

Однако инструкции AVX-512 в потребительских Alder Lake поддерживаться не будут. Производительные ядра их поддерживают, имеются соответствующие вычислительные блоки. Проблема в том, что разные ядра должны поддерживать одинаковый набор инструкций, а эффективные ядра не могут выполнять команды AVX-512. Поэтому все сводится к наименьшему общему знаменателю. Поскольку AVX-512 отвечают за ускорение еще и Vector Neural Network Instructions (AVX512 VNNI), Intel перенесла последние на AVX2. Инструкции AVX2 поддерживаются ядрами P и E, поэтому они и являются наименьшим общим знаменателем. Процессоры Sapphire Rapids Xeon, которые тоже используют ядра Golden Cove, уже будут поддерживать AVX-512.

Intel разделила потребительский и серверный рынок еще и емкостями кэша. В случае Alder Lake каждое P-ядро оснащается 1,25 Мбайт кэша L2, у Sapphire Rapids емкость увеличена до 2 Мбайт. Кэш L2 является эксклюзивным для каждого ядра. С восемью ядрами мы получаем 8x 1,25 Мбайт = 10 Мбайт кэша L2, с шестью - 7,5 Мбайт.

Производительные и эффективные ядра используют общий кэш L3. Емкость у него может составлять до 30 Мбайт. Но это верно только для конфигурации 8+8. Core i7-12700K (8+4 ядра) оснащен уже 25 Мбайт кэша L3. У Core i5-12600K емкость составляет 20 Мбайт.

Сравнение процессоров
  Skylake Sunny Cove Cypress Cove Willow CoveGolden Cove
Техпроцесс 14 нм 10 нм 14 нм 10 нм10 нм
Кэш данных L1 32 KB на ядро 48 KB на ядро 48 KB на ядро 48 KB на ядро48 KB на ядро
Кэш инструкций L1 32 KB на ядро 32 KB на ядро 32 KB на ядро 32 KB на ядро32 KB на ядро
Кэш L2 256 kB на ядро 512 kB на ядро 512 kB на ядро 1,25 MB на ядро1,25 MB на ядро
Кэщ L2 TLB 1.536 2.048 2.048 2.0482.048
Кэш L3 2 MB на ядро 2 MB на ядро 2 MB на ядро 3 MB на ядро3 MB на ядро
Кэш µOp 1.500K µOps 2.250K µOps 2.250K µOps -4.000K µOps
OoO Window 224 352 352 -512
In-Flight Loads 72 128 128 128144
In-Flight Stores 56 72 72 7272
Контроллер памяти DDR4-2933 DDR4-3200
LPDDR4-3744
DDR4-3200 DDR4-3200
LPDDR4-3744
LPDDR5-5400
DDR4-3200
DDR5-4800

В таблице выше приведено сравнение потребительских CPU на последних архитектурах Intel Core. То есть спецификации емкостей кэша здесь приведены для процессоров Core, а не Xeon. Поддержка памяти LPDDR уже имелась в ядрах Sunny Cove и Willow Cove. Поскольку ядра Alder Lake будут использоваться и для ноутбуков, здесь тоже имеется поддержка LPDDR4/5.

Intel говорит о приросте IPC для ядер Golden Cove 19% при равных частотах 3,3 ГГц по сравнению с Cypress Cove. Так что здесь Intel смогла существенно продвинуться вперед, но есть сферы, в которых прирост будет более ощутим, а в других он будет не таким заметным. 19% здесь следует рассматривать как средний результат.

Улучшения связаны не только с архитектурой, но также с производством и управлением ядрами. Например, Intel указывает новый микроконтроллер управления питанием, который может изменять напряжение за считанные микросекунды, а не миллисекунды, как раньше. AMD тоже любит подчеркивать подобную оптимизацию в процессорах Ryzen, что позволяет ядрам менять частоты быстрее. В итоге они работают более эффективно, да и задержки уменьшаются.

Эффективные ядра Gracemont

Второй компонент гибридного дизайна - эффективные ядра Gracemont. Они изначально разработаны с учетом максимальной эффективности, поэтому использовались в процессорах Atom. Ядра Gracemont являются преемниками Tremont. Как утверждает Intel, ядра Gracemont - самые эффективные в истории x86. По производительности IPC они находятся на одном уровне с архитектурой Skylake.

Много небольших ядер позволят Intel хорошо показать себя и по многопоточной производительности. Четыре эффективных ядра по площади примерно соответствуют одному производительному ядру, причем, как отмечает Intel, кластер из четырех экономичных ядер дает примерно такой же уровень многопоточной производительности при 1/4 энергопотребления.

С точки зрения архитектуры у Gracemont тоже есть улучшения, они связаны, по большей части, с фронтальной частью конвейера и предсказанием ветвлений. В современных дизайнах ядер эффективность во многом определяется точностью предсказания ветвлений. Чем они точнее, тем более эффективно работает ядро, поскольку ошибочные предсказания дорого обходятся по задержкам и энергии. В соответствующем регистре почти 5.000 записей, история переходов позволяет учитывать предыдущие предсказания, чтобы повысить точность.

Если у ядер Golden Cove 12 исполнительных портов, то у Gracemont их уже 17, хотя у предшественника Tremont было десять. Причем будь то целочисленные порты, векторные или с плавающей запятой, в каждом классе получается почти удвоение. Что касается набора инструкций, то Gracemont поддерживают только AVX2, но мы уже обсуждали это в контексте ядер Golden Cove.

Чтобы младшие ядра тоже довольно быстро работали с памятью, Intel удвоила число блоков чтения/записи до уровня Golden Cove. Обновления коснулись и кэша. У предшественника Tremont использовалось по 32 кбайт кэша данных и инструкций L1. В случае Gracemont кэш инструкций составляет 64 кбайт, кэш данных все еще 32 кбайт. Кэш L2 является общим для четырех ядер Gracemont, емкость составляет 4 Мбайт.

Как мы уже отметили выше, все упомянутые меры позволили сделать ядра Gracemont быстрыми и эффективными. Как указывает Intel, эффективные ядра дают такую же производительность, что и ядра Skylake, но при этом потребляют на 40% меньше энергии. Кластер из четырех ядер Gracemont дает на 80% больше производительности, чем два ядра Skylake. Либо четырем ядрам Gracemont требуется в пять раз меньше энергии, чтобы дать производительность на уровне двух ядер Skylake. Здесь Intel опирается еще и на преимущество 10-нм техпроцесса Intel 7.

Кэш L3, известный как LLC (Last Level Cache), у ядер Alder Lake имеет емкость 30 Мбайт. Но если не все производительные или эффективные ядра активны, то и кэш L3 будет меньше. Кэш L2 является эксклюзивным для производительных ядер. Но в случае эффективных ядер четыре ядра используют общие 4 Мбайт кэша L2.