> > > > Итоги Intel Architecture Day 2018

Итоги Intel Architecture Day 2018

Опубликовано:

intel-architecture-dayНесколько дней назад Intel на мероприятии Architecture Day 2018 рассказала о своих планах на разных сегментах рынка. И хотя корабль Intel на данный момент плывет без капитана, курс выбран правильный. По крайней мере, если амбициозные планы сбудутся. Мы решили подвести итог мероприятию, поэтому в статье упомянем наиболее важные новости и события.

В любом случае, чиповый гигант планирует стать более гибким. Начиная с технологий производства, которые до сих пор были привязаны к чипам. Но проблема в том, что разработка новых техпроцессов может затормозиться, что видно по нынешней 10-нм технологии, в результате архитектуры, завязанные на техпроцесс, не могут воплотиться в готовых чипах. Именно этот момент Intel и планирует исправить в будущем.

Первые последствия новой стратегии видны по объявленным серверным процессорам Cascade Lake и Cooper Lake. Оба будут производиться по 14-нм техпроцессу. Но улучшения при этом не забыты, Intel будет поддерживать новые инструкции Vector Neural Net (VNNI) в Cascade Lake, что ранее было запланировано для первых 10-нм продуктов. Данный шаг позволит серверной платформе лучше выступить в сегменте ИИ по сравнению с вычислительными ускорителями на GPU. Процессоры Cooper Lake, которые тоже изготавливаются по 14-нм техпроцессу, получат поддержку bfloat16, набора инструкций ISA, ориентированного на вычисления ИИ.

Вместе с тем будут поддерживаться новые инструкции AVX512 для ускорения вычислений инференса, то есть обращений в сеть глубокого обучения. В частности, инструкции VPDPBUSD и VPDPBUSDS ускорят вычисления INT8 и INT16, что должно увеличить производительность инференса в два-три раза по сравнению с архитектурой Skylake без данных инструкций. Если процессоры Cascade Lake ориентированы на инференс, то в случае Cooper Lake можно ожидать увеличения производительности тренировки сетей глубокого обучения, когда требуется более высокая точность.

Sunny Cove

Sunny Cove станет первой новой архитектурой после Skylake. Базовые принципы не изменились, но мы получаем серьезное изменение парадигмы, Intel внесла множество мелких улучшений.

Как и предсказывали слухи Ice Lake, Intel увеличила кэш данных L1 с 32 до 48 кбайт. Также произошли изменения и с кэшем L2, который в случае Skylake составлял 256 кбайт на ядро. Но с процессорами Skylake-SP Intel уже его увеличила, на такой же шаг Intel пойдет и с новыми CPU Sunny Cove. Однако кэш L2 у процессоров Sunny Cove будет зависеть от цели архитектуры, а именно настольных процессоров Core или серверных Xeon.

Кэш микроопераций, который у Skylake составляет 2048 записей, тоже будет увеличен. Intel не указала точного размера этого кэша у Sunny Cove. Кэш TLB второго уровня (Translation Lookaside Buffer) тоже планируется увеличить.

Прирост производительности будет связан с оптимизированной иерархией кэша и улучшенной передней частью конвейера (frontend). Число исполнительных портов увеличилось с восьми до десяти. Данная мера связана с тем, что планировщик может выдавать на процессор больше инструкций, чтобы лучше заполнить конвейер. И устранить ряд "узких мест" архитектуры Skylake.

Intel вместе с Sunny Cove представила возможность выдачи пяти инструкций за такт буфером внеочередного выполнения (5-way allocation). Четыре станции Unified Reservation Stations (RS) позволяют добиться более эффективной параллельной обработки команд по сравнению с Skylake. Возможно, для противодействия уязвимостям Spectre, Intel привязала четыре исполнительных порта к AGU (Address Generation Unit). По два AGU привязаны к соответствующим блокам Load/Store. Для вычислений VEC и INT теперь были добавлены новые вычислительные блоки на соответствующих исполнительных портах. Все эти меры должны увеличить производительность архитектуры.

Sunny Cove будет поддерживать новые наборы инструкций, Vector AES и SHA-NI, а также AVX512. Первые два обеспечивают аппаратное ускорение шифрования и дешифровки. В целом, новые инструкции ориентированы на ускорение алгоритмов криптографии, что хорошо соответствует целям Intel по оптимизации процессоров под определенные сценарии.

Из-за увеличения линейного адресного пространства до 57 битов, а также физического адресного пространства до 52 битов, процессор на основе архитектуры Sunny Cove сможет адресовать до 4 Тбайт памяти на сокет. В случае Skylake-SP и Cascade Lake-AP/SP можно было использовать 3,75 Тбайт только как сумму обычной памяти DDR RAM и Optane DC Persistent Memory. Так что процессоры Ice Lake-SP должны обеспечить улучшения и в этой сфере.

Фокус архитектуры Sunny Cove заключается в приросте однопоточной производительности. Конвейер ядер будет глубже, при этом они смогут выполнять больше операций одновременно. Планировщики станут умнее, они будут более эффективно распределять инструкции по вычислительным ресурсам. Здесь должны помочь и большие по размеру кэши L1 и L2.

Ice Lake - первый процессор Sunny Cove

Первыми процессорами на основе архитектуры Sunny Cove станут Ice Lake. Они будут производиться по 10-нм техпроцессу, на мероприятии Architecture Day Intel как раз показала процессор Ice Lake SP. Мы получаем первый 10-нм чип, который значительно крупнее кристаллов 100 мм² в линейке Cannon Lake.

Gen11 - промежуточный этап на пути к GPU нового поколения под названием Xe

Вторая важная новость после процессоров касается будущих планов Intel по развитию графики. Пока что известно о двух разработках. Первая - Gen11, ориентирована на ближайшее будущее, графическое ядро появится в процессорах Ice Lake уже в следующем году. Вторая, под названием Xe, ориентирована на среднесрочную перспективу. Графика Xe будет использоваться во всех сегментах, то есть и в потребительских ПК, и в дата-центрах.

Графика Gen11 призвана стать важным стартом

Сначала рассмотрим ближнюю перспективу - встроенную графику Gen11. В процессорах Skylake, Kaby Lake и Coffee Lake используется графика Gen9 и Gen9.5, которой достаточно для простых вычислений 2D, то есть для офисного использования. Конечно, одну-две игры запустить можно, но производительность все же ограничена.

Ситуация должна была измениться в лучшую сторону с графикой Gen10 и процессорами Cannon Lake. Но из-за известных проблем с 10-нм техпроцессом, графический блок на нынешних 10-нм CPU отключен. Так что графика Gen10 на рынке не появится, Intel планирует сразу же перейти на Gen11.

Intel с графикой Gen11 поставила весьма амбициозные цели. А именно увеличение эффективности и производительности, также упоминается поддержка дисплеев высокого разрешения, кодирование и декодирование видео.

С графикой Gen11 Intel решила не менять базовую конструкцию нынешней архитектуры iGPU. Но к хорошо знакомым исполнительным блокам EU (Execution Units) будет добавлена новая фронтальная часть конвейера. Intel изменила подсистему памяти и иерархию кэшей. Все это было необходимо, поскольку Intel расширила число EU с нынешних 24 до 64. Они распределены по четырем слайсом, каждый слайс содержит четыре суб-слайса с 8 EU.

Графика Intel Gen11 будет поддерживать тайловый рендеринг. Его нельзя назвать новым, те же Imagination Technology или ARM уже давно опираются на тайловый рендеринг в дизайнах PowerVR и Mali. Концепция Tile Based Rendering является противоположностью рендерингу Immediate Mode Rendering. Процесс растеризации IMR выполняется для всего кадра, в случае же TBR кадр разделяется на множество прямоугольных тайлов, и процесс растеризации выполняется уже отдельно для тайлов. Как правило, тайлы имеют размер 16x16 или 32x32 пикселей. Подобная параллелизация нагрузки отлично подходит для современных GPU с тысячами потоковых процессоров. Кроме того, у Immediate Mode Rendering довольно высокие требования к пропускной способности памяти.

Как и NVIDIA с Variable Rate Shading (VRS) ранее, Intel представила технологию Coarse Pixel Shading (COS). Она работает по тому же принципу и тоже требует прямой поддержки со стороны игры. В принципе, технологии, подобные VRS и COS, хорошо работают на слабом "железе", либо обеспечивают заметный прирост производительности.

Intel с графикой Gen11 нацелилась и на вычислительную производительность, улучшив эффективность графического конвейера через оптимизацию планировщика. Здесь помог и новый специально разработанный блок FPU (Floating Point Unit). Каждый EU оснащен восемью подобными улучшенными FPU. С 64 EU мы получаем 512 FPU. Данные FPU могут выполнять два вычисления Float16 за такт. Вычисления Float16 сравнительно новые, однако они могут заменить другие более сложные типы данных с более высокой точностью, которая во многих сценариях не требуется.

Здесь можно провести примерное сравнение с числом потоковых процессоров AMD и NVIDIA. Intel говорит о вычислительной производительности более одного терафлопа. Так что по производительности мы получаем аналог GPU Vega 8. Похоже, что Intel хочет вывести из актива такие наработки, как процессоры Core с подключенным GPU Vega. Как можно видеть по планам компании и подробностям, процессоры Core с графикой Vega - проект уникальный и разовый, который вряд ли получит продолжение.

Помимо увеличения 3D-производительности, графика Gen11 обеспечит ряд инноваций и в сфере технологий дисплеев и видео. Среди них - поддержка декодирования и кодирования видео в разрешениях до 8K, поддержку дисплеев с разрешением до 8K, синхронизации Adaptive Sync на стандартах VESA.

Впервые графика Gen11 будет использоваться с процессорами Ice Lake. Причем мы увидим ее не только в настольных CPU, но и в процессорах для ноутбуков и ультрабуков.

Xe - новый флагман GPU

Гораздо интереснее то, что нас ждет после графики Gen11. К сожалению, здесь Intel оказалась весьма скупа. Новой флагманской архитектурой GPU будет Xe, она позиционируется на все сегменты, от встроенной графики до high-end настольных систем для энтузиастов. Не забыт и сегмент дата-центров.

Поскольку технических подробностей пока нет, то и точка старта неизвестна. С чего начнет Intel, с видеокарты начального уровня или с ускорителя для дата-центров? В любом случае, упоминание сегмента энтузиастов позволяет надеяться на конкуренцию Xe с двумя именитыми разработчиками GPU с самого начала. Посмотрим, хватит ли сил у Intel.

Foveros - взгляд на будущее Intel

Стратегиями CPU и GPU видение будущего Intel не заканчивается. На Architecture Day 2018 чиповый гигант рассказала о смене парадигмы.

Уже несколько раз мы упоминали, что Intel больше не желает привязывать разработку технологий/архитектур к техпроцессам. В зависимости от текущей ситуации Intel будет использовать для архитектуры наиболее оптимальный техпроцесс. Но скалярные архитектуры CPU, векторные архитектуры GPU, матричные вычисления ускорителей ИИ и любые другие вычисления FPGA накладывают совершенно разные требования на производство чипов. Процессоры, которые будут производиться в 2019 году, все еще базируются на старом дизайне. Новая парадигма начнет работать с Ice Lake.

На будущее Intel приготовила технологию Foveros. Она представляет собой стекированный 3D-процессор, который стоит на ступеньку выше обычных решений Embedded Multi-die Interconnect Bridge (EMIB). В качестве основы используется EMIB, но Foveros найдет применение в гораздо большем спектре сценариев. Цель заключается в создании идеального метода производства дизайна MCM, состоящего из CPU, GPU, памяти и других компонентов. Со вторым поколением EPYC AMD наглядно продемонстрировала, что 7-нм кристаллы CPU могут отлично сосуществовать в одной упаковке с центральным кристаллом ввода/вывода, изготавливаемым по 14-нм техпроцессу.

В одной упаковке могут использоваться кристаллы CPU и GPU, но также компоненты питания, модемы и беспроводные контроллеры, память, различные трансиверы сенсоров, интерконнекты и FPGA. Технология EMIB, которая разрабатывается под кодовым названием Foveros, пока не планируется для high-end процессоров и крупных SoC. На первом этапе Intel планирует представить компактные и экономичные SoC. И первые продукты на основе Foveros должны появиться в 2019 году. А именно гибридная SoC с активной подложкой, обеспечивающей функции ввода/вывода. Над ней располагается вычислительный кристалл, а еще выше - память PoP (Package on Package). Подложка I/O SoC производится по 22-нм техпроцессу, вычислительный кристалл - по 10-нм. Размер упаковки составляет всего 12 x 12 x 1 мм, что хорошо подходит для мобильных устройств. Intel указывает энергопотребление в режиме ожидания всего 2 мВт.

До появления крупных дизайнов на основе Foveros предстоит решить ряд проблем. Каждый чип выделяет определенное количество тепла. Если кристаллы будут располагаться друг над другом, то отвести тепло от каждого с помощью прямого контакта с кулером не представляется возможным. В случае первых чипов Foveros Intel заявила о решении этих проблем благодаря термальному контакту встроенных кристаллов. Но, опять же, здесь подразумеваются очень экономичные SoC, которые выделяют не больше 1 Вт тепла. В случае с более мощными кристаллами придется что-то решать.

В любом случае, в будущем Intel будет опираться на модульный дизайн чипов. Мы уже видели подобный подход с процессорами Xeon AP, которые оснащались кристаллом FPGA. То же самое касается чипов FPGA в линейках Arria и Stratix. В следующем году выйдут первые образцы Falcon Mesa FPGA. Отдельные кристаллы, такие как CPU, GPU, ASIC, DAC и ADC, а также HBM, уже давно устанавливаются в упаковку. Так что речь может идти о более чем двух кристаллах. Первые образцы процессоров Cascade Lake, которые используют два 24-ядерных кристалла, уже отправлены партнерам Intel.

Процессоры Ice Lake, как для high-end настольных компьютеров (Ice Lake-X), так и для серверов Ice Lake-SP, скорее всего будут представлять собой крупные монолитные чипы. Самым большим модульным дизайном в ближайшем будущем останутся отдельные FPGA и процессоры Xeon c FPGA. Посмотрим, что будет дальше.

Intel прислушалась к критике

Кроме упомянутых инноваций в сфере CPU, GPU и технологий производства, Intel рассказала о прогрессе в других областях. Тема безопасности стоила Intel в уходящем году немало, учитывая обнародованные уязвимости Spectre и Meltdown. Частично они будут закрыты в новых архитектурах, но только полная переработка архитектуры позволит полностью устранить возможность атаки по сторонним каналам.

Продолжается разработка Optane DC Persistent Memory. С процессорами Cascade Lake мы впервые увидим первое практическое применение новой памяти. Будет ли она когда-нибудь использоваться в обычных настольных компьютерах - неизвестно. Прежде всего Intel нацеливает новую память на дата-центры.

За последние месяцы Intel получила немало критических замечаний со стороны пользователей и журналистов. Причина кроется в недостатке обратной связи и по проблемам 10-нм техпроцесса, и по уязвимостям Spectre и Meltdown, с которыми придется жить ближайшие годы.

Architecture Day 2018 - как раз одна из реакций Intel на высказанную за последние месяцы критику. Раджа Кодури (глава Core and Visual Computing Group) и Джим Келлер (старший вице-президент Silicon Engineering) появились на мероприятии и высказали свое мнение. Последствия их перехода в Intel будут видны только через 2-3 года, но уже сейчас появились "первые ласточки". Нас ждут весьма интересные события: процессоры Ice Lake в будущем году, а также дискретные GPU Intel в 2020!