Intel 10 нм: Ice Lake с ядрами Sunny Cove и игровая производительность 1080p

Опубликовано:

ice-lake-yДля Computex Intel подготовила анонсы, которые относятся либо к бизнес-сегменту (9th Gen vPro и Xeon E), либо к продуктам, которые выйдут в этом году позже (новые процессоры X-Series осенью и Core i9-9900KS в четвертом квартале). Поэтому весьма интересны здесь процессоры Ice Lake-U. С ними Intel планирует оставить в прошлом неудачи с 10-нм техпроцессом. Но позвольте сначала просуммировать технические подробности.

Процессоры Ice-Lake не только изготавливаются по 10-нм техпроцессу, но и используют новые ядра Sunny Cove, как и графический блок Gen11. Кроме новой архитектуры CPU Intel доработала чипсет, интегрировав в него поддержку Thunderbolt 3 и WiFi 6.

На техническом уровне процессоры предлагают до четырех ядер, которые могут выполнять одновременно восемь потоков. Также имеются варианты с меньшим числом ядер, Intel сортирует процессоры по классу энергопотребления 9, 15 и 28 Вт, а также по обычным категориям i3, i5 и i9. У процессоров произошли изменения в структуре кэшей, тактовые частоты сравнительно низкие - до 4,1 ГГц. Но скоростная память LPDDR4 должна помочь платформе выжать больший уровень производительности. Ниже мы рассмотрим изменения более детально.

Хотя процессоры платформы Ice Lake производятся по технологии 10 нм, к чипсету PCH это не относится. Он производится по технологии 14 нм, содержит контроллер WiFi 6, различные подсистемы ввода/видео и аудио ЦСП.

Еще важным фактором является то, что Intel использует встроенную подсистему питания как для кристалла Ice Lake CPU, так и для PCH. Подобный подход для Intel CPU мы видели и раньше - FIVR (Fully Integrated Voltage Regulators), он должен помочь процессорам Ice Lake-U работать с высокой эффективностью.

Упаковок с процессорами Ice Lake-U будет несколько. Одна из них - Type3 для вариантов 15 Вт. Габариты составляют 50 x 25 x 1,3 мм, снизу упаковка оснащена 1.526 контактами BGA. Расстояние между ними - всего 0,65 мм. Вторая упаковка Type4 предназначена для моделей на 9 Вт и меньше. Размеры снижены до 26,5 x 18,5 x 1 мм, снизу имеются 1.377 контактов BGA, расстояние еще меньше - 0,43 мм. Самая маленькая и тонкая упаковка вместе с памятью PoP-LP4 позволит создавать наиболее тонкие и легкие ноутбуки.

Архитектура Sunny Cove

Для Intel архитектура Sunny Cove является первым существенным изменением базовой архитектуры CPU со времен Skylake в 2015 году. Четыре года Intel вносила мелкие улучшения в архитектуру Skylake, несмотря на всю критику Intel удалось существенно увеличить производительность по сравнению с первым поколением процессоров Skylake - вплоть до нынешних Coffee Lake Refresh. Причина кроется и в улучшениях техпроцесса. Конечно, Skylake были доступны по 10-нм технологии в гомеопатических дозах в виде Canon Lake, но оптимизации техпроцессов 14nm+, 14nm++ и 14nm+++ все же весьма существенны.

Но с Sunny Cove мы переходим на полностью новую архитектуру. С более широкой передней частью конвейера и более глубокой задней частью.

Intel для Sunny Cove использует 5-wide конвейер с внеочередным выполнением. В нем теперь имеются четыре станции Unified Reservation Stations (RS), что позволяет добиться лучшего параллелизма выполнения инструкций, чем в случае Skylake. Возможно, для предотвращения уязвимостей Spectre, Intel выделила четыре фиксированных порта для AGU (Address Generation Unit). По два AGU привязаны к блокам чтения/записи (Load/Store). Для вычислений VEC и INT теперь присутствуют дополнительные вычислительные блоки на соответствующих портах. Все эти меры призваны увеличить производительность архитектуры.

Также Sunny Cove поддерживает новые наборы команд ISA. Среди них Vector-AES и SHA-NI, но также и AVX512. Первые два обеспечивают аппаратное ускорение шифрования и дешифровки. В результате мы должны получить ускорение многих алгоритмов криптографии, что как раз соответствует упомянутым Intel оптимизациям под специальные приложения.

Благодаря расширению линейного адресного пространства до 57 бит и физического адресного пространства до 52 бит, процессоры на архитектуре Sunny Cove могут адресовать до 4 Тбайт оперативной памяти на сокет.

Произошли изменения в иерархии кэшей. Размер кэша данных L1 увеличился на 50% с 32 до 48 кбайт. Кэш L2 удвоен до 512 кбайт на ядро. Буфер Translation Lookaside Buffer (TLB) увеличился, что позволяет вмещать ему более крупные таблицы адресов. Кэш микроопераций (µOP) тоже вырос.

Intel улучшила точность предсказания ветвлений. Интересно, что здесь как раз была одна из уязвимостей в архитектуре Skylake.

Все это должно привести к крупному увеличению производительности IPC. В среднем, прирост ожидается 18%. Так что и AMD, и Intel обещают немало: AMD объявила о 15% увеличении IPC у процессоров Ryzen третьего поколения.

Но архитектура Sunny Cove также предлагает поддержку специальных блоков обработки команд, которые знакомы нам по архитектуре Cascade Lake. Процессоры Ice Lake станут первыми потребительскими CPU Intel, которые будут поддерживать AVX512 во всех версиях и вариантах расширения. По сравнению с Skylake Intel обещает увеличить производительность в 2-2,5 раза благодаря ускорению DL Boost в приложениях ИИ. То же самое верно и для серверных процессоров Ice Lake-SP, где DL Boost будет играть более существенную роль. Но они ожидаются не раньше первой половины 2020.

Высокие частоты Boost благодаря Dynamic Tuning 2.0

Технология Dynamic Tuning 2.0 призвана обеспечить более длительную работу процессоров Ice Lake на максимальных частотах Boost. И даже после снижения частот высокий уровень должен поддерживаться дольше. Intel проанализировала нагрузку разных приложений используя машинное обучение, и процессоры будут реагировать соответствующим образом. Вместо максимальной частоты Turbo на протяжении, например, 18 секунд, высокий уровень Boost будет поддерживаться 26 секунд.

Благодаря Dynamic Tuning 2.0 и улучшениям архитектуры Intel говорит об увеличении производительности почти на 50% по сравнению с Broadwell при бюджете энергопотребления 15 Вт.

Thunderbolt 3 работает быстрее благодаря прямому подключению

Процессоры Ice Lake стали первыми CPU с интегрированным контроллером Thunderbolt 3. До сих пор поддержка Thunderbolt 3 реализовывалась только через внешний контроллер. Современный контроллер Titan Ridge подключался четырьмя линиями PCI Express 3.0. Если подключалось больше двух портов Thunderbolt, то на три-четыре порта пропускной способности уже могло не хватить.

MitВ случае Ice Lake контроллер встроен в процессор, что обеспечивает намного более высокую скорость. Теоретически можно получить 40 Гбит/с на всех доступных портах. На Computex Intel показала различные демонстрации, сравнивая старые решения Thunderbolt с новыми. По крайней мере, на этих демонстрациях можно было видеть скорость передачи в несколько гигабайт в секунду. Конечно, здесь все зависит и от скорости подключенных накопителей.

Iris Plus Graphics - игры в 1080p

Графический блок Gen11 в процессорах Ice Lake является промежуточной ступенью к новой архитектуре GPU, которая выходит в виде Xe в следующем году. Архитектура Gen11 предлагает 64 исполнительных блока (EUs) в максимальной конфигурации. Кроме архитектурных изменений, графический блок Gen11 предлагает такие функции, как Coarse Pixel Shading (CPS) и Position Only Shading Tile Based Rendering (PTBR).

64 EU работают с максимальной частотой 1,1 ГГц. Что обеспечивает вычислительную производительность 1,12 TFLOPS для FP32 и 2,25 TFLOPS для FP16.

Графика Gen11 подключена к остальным компонентам процессора или SoC кольцевой шиной (SoC Ring Interconnect). Отдельные компоненты работают в своих доменах тактовых частот. А именно ядро CPU или несколько ядер, графика (Processor Graphics Clock Domain) и кольцевая шина (Ring Interconnect Clock Domain).

Кольцевая шина соединяет графический блок Gen11 с ядрами CPU, кэшем Last Level Cache (LLC) и System Agent (контроллер памяти, контроллер PCI Express, контроллер дисплея и т.д.).

Графика Gen11 состоит из так называемого слайса, который разделяется на, максимум, восемь субслайсов. Последние используют общий кэш L3, пиксельную часть конвейера (pixel backend), диспетчер пикселей (pixel dispatcher), растеризатор (raster) и блок обрезки/Z-буфер (HiZ/Depth). Если верить Intel, большинство процессоров с графикой Gen11 будут опираться на восемь субслайсов, то есть 64 EU. Однако вполне возможно появление меньших версий Gen11.

Каждый субслайс содержит локальный диспетчер потоков и собственный кэш инструкций. Можно отметить блоки 3D Texture Sampler Unit, Media Sampler Unit и Dataport Unit.

Основным компонентом остаются исполнительные блоки (Execution Unit). Они опираются на Simultaneous Multi-Threading (SMT) и Fine-Grained Interleaved Multi-Threading (IMT). В случае IMTархитектура гарантирует, что различные вычислительные блоки EU будут постоянно получать данные для работы.

Каждый EU оснащен двумя блоками SIMD Floating Point Units (ALUs). Несмотря на название, они также выполняют целочисленные вычисления. Каждый ALUs может выполнять до четырех 32-битных операций с плавающей запятой (или целочисленных), либо до восьми 16-битных операций с плавающей запятой. В результате каждый EU может выполнять 16 операций FP32 за такт (2 ALUs x SIMD-4 x 2 Ops (Add + Mul)) и 32 операции FP16 за такт (2 ALUs x SIMD-8 x 2 Ops (Add + Mul)). EU работают в многопоточном режиме, используя 28-кбайт регистровый файл (GRF) с 32 байтами на регистр.

Сравнение графики Gen9 и Gen11
  Gen9 Gen11
Слайсы 1 1
Субслайсы 3 8
Исполнительные блоки 24 (3x 8) 64 (8x 8)
FLOPS на такт (FP32) 384 1.024
FLOPS на такт (FP64) 768 2.048
Регистры 672 kB (3x 224 kB) 1.792 kB (8x 224 kB)
Shared Local Memory 192 kB (3x 64 kB) 512 kB (8x 64 kB)
Пиксели на такт 8 16
Кэш L3 768 kB 3.072 kB
Пропускная способность GTI 64 / 32 байт на такт 64 / 64 байт на такт
Last Level Cache от 2 до 8 MB TBD
Поддержка DRAM 2x 64 LPDDR3/DDR4 4x 32 LPDDR4/DDR4

По сравнению с графикой Gen9, в Gen11 память Shared Local Memory (SLM) расположена на субслайсах. Таким образом, восемь EU субслайса могут напрямую обращаться к 64 кбайт памяти SLM, им не приходится проходить путь к SLM (в составе кэша L3) через DataPort. В данном случае Gen11 выигрывает от более высокой пропускной способности и меньших задержек.

Через DataPort обеспечивается доступ к кэшу L3. Intel увеличила размер кэша L3 до 3 Мбайт. DataPort может считывать или записывать 64 байта за такт в кэш L3. Чтобы передача данных была максимально эффективной, можно сочетать два 32-байтных доступа к 64 байтам кэша. Кроме того, Intel добавила новые механизмы сжатия без потерь, которые тоже вносят свой вклад при работе с основной памятью. Несмотря на увеличение размера кэша L3 до 3 Мбайт, данные все равно приходится считывать и записывать в основную память системы.

В целом, вся подсистема памяти графики Gen11 была оптимизирована под минимальные задержки и высокую пропускную способность. Архитектура поддерживает память LPDDR4.

Благодаря многочисленным улучшениям в графике Iris Plus, Intel планирует вновь догнать AMD APU по производительности. На системе Ice Lake можно запускать игры в разрешении 1080p, хотя здесь, конечно, все зависит от игры. Intel в качестве примеров упоминает CS:GO, Rocket League, Dirt Rally 2.0 и Fortnite.

Графический блок будет называться Iris Plus в случае 48 или 64 EU на процессорах Ice Lake. Если же число EU ограничено 32, то он будет назван UHD.

Первые процессоры и ноутбуки

На Computex были показаны первые ноутбуки на процессорах Ice Lake. Intel начинает с шести CPU. Пока что известны спецификации только моделей Ice Lake-U, варианты Y с тепловым пакетом 9 Вт выйдут чуть позже.

Сравнение процессоров

Ядра/потоки Базовая частотаBoostКэшTDP
Core i7-1065G7 4 / 8 1,3 ГГц3,9 ГГц8 MB15 W
Core i5-1035G7 4 / 8
1,2 ГГц3,7 ГГц8 MB15 W
Core i5-1035G4 4 / 8
1,1 ГГц3,7 ГГц8 MB15 W
Core i5-1035G1 4 / 8
1,0 ГГц3,7 ГГц8 MB15 W
Core i5-1034G1 4 / 8
0,8 ГГц3,6 ГГц8 MB15 W
Core i3-1005G1
2 / 4 1,2 ГГц3,4 ГГц4 MB15 W

Хотя Intel говорит о максимальной частоте Boost 4,1 ГГц, у первых процессоров мы ее не увидим. Вероятна, она останется уделом CPU с более высоким TDP. Пока что не все процессоры были официально подтверждены Intel. Но на Computex демонстрировалось большое число ноутбуков с разными конфигурациями.