Страница 1: Intel Lunar Lake: новые P- и E-ядра, Xe2 GPU и мощный NPU

hardwareluxx news newКак раз к сезону новогодних и рождественских покупок Intel и партнеры хотят навести порядок на рынке ноутбуков премиум-класса – разумеется, подвинув Apple и Qualcomm в качестве оппонентов. Слухи о Lunar Lake ходят уже несколько месяцев, и мы уже знаем многие подробности. Перед Computex Intel провела третью конференцию Intel Tech Tour и рассказала первые подробности Lunar Lake. Конкретные модели процессоров пока не анонсированы, зато Intel представила новую архитектуру с прицелом на эффективность и производительность, а также раскрыла архитектуру Xe2 для интегрированного GPU.

Конечно, на повестке дня также более мощный NPU, новые функции безопасности и усовершенствованное управление питанием. Позвольте рассмотреть все эти темы более подробно.

Процессоры Lunar Lake предназначены для ноутбуков премиум-класса. На прошлой неделе Intel уже представила несколько подробностей, позволяющих примерно определить эту категорию. Диапазон TDP, скорее всего, будет варьироваться от 17 до 30 Вт.

Точной даты запуска Lunar Lake пока нет. Intel говорит о третьем квартале и новогоднем/рождественском сезоне. Первые пластины с финальными чипами сейчас как раз сходят с конвейера TSMC, причем Intel для Lunar Lake полагается исключительно на TSMC как на производителя активных тайлов. Корпусировка, с другой стороны, выполняется Intel.

Intel утверждает, что уже нашла 20 партнеров для Lunar Lake, которые хотят выпустить не менее 80 ноутбуков на рынок к новогоднему сезону. Вероятно, первые ноутбуки мы увидим на выставке IFA в Берлине.

Lion Cove: новые P-ядра без Hyper-Threading

Новые производительные ядра основаны на архитектуре Lion Cove. Они должны обеспечить такую же однопоточную производительность, как и Redwood Cove, при вдвое меньшем энергопотреблении. Однопоточная – важное слово, поскольку Intel откажется от Hyper-Threading в этих ядрах. Вместе с тем прирост производительности в расчете на такт (IPC) должен быть значительным. Насколько большим? Об этом мы поговорим чуть позже.

Когда стало понятным решение Intel насчет Hyper-Threading, возникает логичный вопрос: почему Intel отказалась от поддержки в Lunar Lake?

Технология Hyper-Threading была представлена для процессоров Xeon в феврале 2002 года, а для процессоров Pentium - в ноябре 2002 года. Используя два отдельных регистра и конвейера, Hyper-Threading позволяет выполнять два потока на ядро, что повышает эффективность использования ядра в многопоточных приложениях и обеспечивает более высокую вычислительную производительность. Hyper-Threading позволяет увеличить производительность IPC примерно на +30%, но при этом Cdyn (энергопотребление в той же точке кривой V/F) также увеличивается на 20%.

Если отключить Hyper-Threading на ядре Redwood Cove и сравнить его с Lion Cove, то соотношение производительность/ватт у новых ядер увеличится на 15%, а производительность/площадь - на 10%. Эффективность/площадь, соответственно, увеличивается на 30%. Если включить Hyper-Threading на ядре Redwood Cove, то старое ядро выглядит не так и плохо по сравнению с Lion Cove: прирост производительности/ватт всего +5%. Однако соотношение производительность/площадь ухудшилось на -15%. Однако эффективность/площадь все равно выше на 15%.

Однако для типичных нагрузок, которые будут запускаться на Lunar Lake, Intel предполагает, что лучше будет использовать дизайн Lion Cove, оптимизированный для однопоточной производительности. Недостаток в виде меньшей многопоточной производительности в этом сегменте будет компенсирован эффективными ядрами.

Интересно, что ядра Lion Cove изначально разрабатывались с поддержкой Hyper-Threading, она будет присутствовать в других продуктах. Вполне возможно, что в процессорах Arrow Lake и Xeon на ядрах Lion Cove. В случае процессоров Lunar Lake необходимые регистры и ступени конвейера были вырезаны. Однако на уровне проектирования чипа RTL вполне можно использовать ядра Lion Cove с Hyper-Threading для других продуктов.

Изменения в передней части конвейера Front End

Передняя часть конвейера Lion Cove была значительно расширена по сравнению с Redwood Cove. Декодер по ширине был увеличен с 6-Wide до 8-Wide, а кэш µOP - с 8-Wide до 12-Wide.

Движок внеочередного выполнения OoO (Out-of-Order) разделен на целочисленную и векторную части. Это сделано в ответ на изменение требований, связанных с рабочей нагрузкой. Обе области имеют свой собственный планировщик и регистровые файлы.

Теперь в механизме OoO блоки выделения/переименования (alloc/rename) могут выполнять по восемь, а не по шесть операций. Чтобы быстрее освобождать ресурсы конвейера, в Lion Cove блок удаления (retirement) расширился до 12-Wide вместо 8-Wide у Redwood Cove. Глубина окна инструкций увеличивается с 512 до 576. Число портов выполнения увеличилось с 12 до 18.

Целочисленные вычисления

Теперь в целочисленном сегменте вместо пяти АЛУ доступно шесть. Количество блоков переходов (jump) увеличивается с двух до трех, что также относится к блокам сдвига (shift). Количество блоков MUL (операции умножения-сложения) увеличивается с одного до трех.

Векторные вычисления

В векторных блоках также произошли изменения. Количество 256-битных SIMD увеличено с трех до четырех. Один делитель для вычислений с плавающей запятой FP превращается в два, они могут выполнять 256-битные операции и были дополнительно оптимизированы по задержкам и пропускной способности.

Подсистема памяти Lion Cove

Улучшения коснулись и подсистемы памяти, которая в Lion Cove была усовершенствована. Например, добавлен уровень кэша L0. При задержке в четыре такта доступ к кэшу L0 осуществляется быстрее, чем к кэшу L1 в Redwood Cove.

Сравнение иерархии кэш-памяти

Задержка (Load to use) Пропускная способность чтенияЕмкость
Redwood Cove (L1 Cache) 5 3x 256 бит / 2x 512 бит48 кбайт
Redwood Cove (L2 Cache) 16 2x 64 бит2 Мбайт
Lion Cove (L0 Cache) 4 3x 256 бит / 2x 512 бит
48 кбайт
Lion Cove (L1 Cache) 9 2x 64 бит
192 кбайт
Lion Cove (L2 Cache) 17 2x 64 бит
2,5 / 3 Мбайт

Lion Cove рассчитан на несколько дизайнов процессоров, о чем можно судить по емкости кэша L2 в 2,5 Мбайт у производительных ядер для Lunar Lake. Но максимальный кэш L2 составляет 3 Мбайт, что мы вполне можем увидеть у производительных ядер Arrow Lake.

Чтобы лучше использовать подсистему памяти Lion Cove, Intel увеличила количество страниц буфера DTLB (Data Translation Lookaside Buffer) с 96 до 128. Количество AGU (Address Generation Unit) было увеличено с двух до трех.

Все эти изменения в микроархитектуре, конечно же, призваны обеспечить более высокую производительность.

По сравнению с Redwood Cove средний прирост IPC составляет 14%. На разных участках кривой производительности/ватт Intel может поддерживать прирост IPC от 18 до 10 %.

Skymont: новые ядра E со значительным приростом IPC

Если раньше эффективные ядра были в основном на втором плане, то в последние годы им отводится гораздо большая роль. Они перестали быть просто экономичными ядрами для мобильных систем, а стали частью гибридного производительного дизайна, начиная с Alder Lake. С Meteor Lake Intel представила маломощные ядра Low Power E, третий уровень ядер, которые работают очень экономично и хорошо подходят для фоновых задач.

С Lunar Lake компания делает еще один шаг назад. Мы уже говорили о ядрах P; к ним добавились еще четыре ядра E, которые Intel называет «островом с низким энергопотреблением» (Low Power Island), хотя они входят в состав вычислительного тайла.

Новые ядра Skymont были полностью пересмотрены. Они призваны поддерживать многопоточную производительность SoC, при этом играют значительно большую роль в общей производительности чипа. Микроархитектура E-ядер стала значительно шире и быстрее.

Передняя часть конвейера

Как и в Lion Cove, предсказание переходов увеличено с 64 до 128 байт. В некоторых моделях Crestmont можно было использовать предсказание только для 32 байт. То есть процессор ядро будет быстрее находить следующую инструкцию. Механизм декодирования расширен до 9-Wide в конфигурации 3x3, в результате теперь на 50% больше кластеров декодирования, чем в случае Crestmont и конфигурации 2x3.

Передняя часть конвейера также включает очередь µOP, которая расширена с 64 до 96 микроопераций. Инструкция разбивается на несколько микроопераций (µOP). Однако в Crestmont считывать из ROM мог только один кластер декодирования в одно время, теперь Skymont поддерживает параллельный доступ.

Задняя часть конвейера

Механизм внеочередного выполнения теперь стал шире, он может выполнять восемь вместо шести операций выделения или переименования. Чтобы ускорить выполнение следующей инструкции, блок вытеснения (retire) увеличен с восьми до 16 инструкций, что также уменьшает задержки и количество тактов до выполнения следующей инструкции. Также были увеличены буферы и соответствующие регистры.

Целочисленная производительность

Для повышения производительности целочисленных вычислений Skymont теперь предлагает 8-wide блок выделения и переименования вместо 6-wide. Механизм внеочередного выполнения OoO (Out of Order) теперь в два раза шире – с 8-Wide до 16-Wide, а количество портов выполнения Execution Ports увеличено с 12 до 18.

Векторная производительность

По сравнению с Crestmont, векторные блоки в Skymont удвоены. Теперь доступны четыре 128-битных векторных блока FP & SIMD. Также имеется аппаратная поддержка округления чисел с плавающей запятой. Помимо удвоения векторной производительности, производительность искусственного интеллекта ядер Skymont также значительно увеличивается за счет поддержки VNNI через AVX2.

Если теперь взглянуть на блоки загрузки/хранения, которые, помимо прочего, питают кэш данных, то Skymont теперь может выполнять три загрузки за такт вместо двух. Количество движков хранения увеличивается с двух в Crestmont до четырех в Skymont. Общий кэш L2 TLB теперь имеет 4.192 записи вместо прежних 3.096.

Еще одна оптимизация по производительности и эффективности Skymont связана с передачей данных из кэша L1 в кэш L1 между ядрами. Теперь она выполняется напрямую, а не через интерконнект и кэш L2.

Если ядра Lion Cove дают убедительный прирост IPC на 14%, то в случае Skymont прирост еще более существенный. Для целочисленных приложений прирост IPC составляет 38%, а за счет удвоения векторных блоков для вычислений с плавающей запятой – даже 68 %. Это, пожалуй, самый большой прирост IPC, который мы видели за последние годы.

По сравнению с маломощными ядрами Low Power E, новые ядра E в Lunar Lake в 2,9 раза быстрее при работе в идеальном окне производительности и потребляют всего треть энергии. Однако, если быть честным, следует сказать, что Intel сравнивает два LP E-ядра с четырьмя новыми ядрами Skymont.

В конечном итоге Skymont и, соответственно, ядра E обеспечивают ту же производительность IPC (+2%), что и Raptor Cove, хотя это среднее значение, и некоторые приложения иногда оказываются значительно медленнее.

Если сравнивать однопоточную производительность Skymont и Raptor Cove, то ядра E могут быть на 20% быстрее в определенном операционном окне и имеют на 40% меньшее энергопотребление..