Страница 1: Обзор: процессоры Intel Cascade Lake Xeon и память Optane DC Persistent Memory

intel-xeon-platinum2 апреля Intel представила второе поколение процессоров Intel Xeon Scalable. Они устанавливаются в платформу Purley, которая уже знакома нам по процессорам Skylake SP/AP. Но из-за изменений архитектуры, в частности, экосистемы хранения данных, Cascade Lake Xeon смотрятся лучше во многих областях. Сегодня мы рассмотрим архитектуру, а чуть позднее представим тесты.

Intel давно поняла, что громоздкая архитектура центрального процессора слишком неповоротлива. Сфер использования CPU сегодня настолько много, что чистый дизайн под вычислительную производительность FP64 или FP32 будет таким же неудачным, как, например, выпуск специализированных ускорителей для вычислений с пониженной точностью. Соответственно, в архитектуре Cascade Lake присутствуют многочисленные улучшения, которые позволяют ей быть более гибкой. Intel также масштабирует архитектуру на аппаратном уровне, в виде различных моделей, и теперь предлагает процессоры, специально оптимизированные под разные сценарии.

В архитектуре Cascade Lake Intel реализовала различные улучшения по сравнению со Skylake, которые оправдывают переход. Увеличилась емкость поддерживаемой памяти и скорость, в том числе это касается поддержки Intel Optane DC Persistent Memory. Изменения архитектуры также ориентированы на ускорение вычислений через специализированные наборы инструкций. Среди них - набор инструкций AVX-512 с поддержкой Vector Neural Network Instructions (VNNI), а также оптимизация программного кода, которую Intel объединяет под названием DL Boost. Также в архитектуре Cascade Lake Intel закрывает уязвимости, из-за которых была возможна атака методом бокового канала. Все же Spectre и Meltdown привели к далеко идущим последствиям.

В структуре Uncore по сравнению с Skylake-SP произошли заметные изменения. Здесь можно отметить улучшенную поддержку ускорения DL Boost и памяти Optane DC Persistent Memory, к которой мы еще вернемся чуть ниже.

Улучшения техпроцесса тоже имеются. Хотя процессоры Cascade Lake по-прежнему производятся по 14-нм техпроцессу, Intel внесла ряд улучшений, обеспечивающих увеличение частоты Boost по сравнению с предшественниками. Частота новых CPU на 200-300 МГц выше. Впрочем, ожидать революционного прироста частоты от процессоров Xeon Scalable второго поколения не приходится.

В high-end сегменте Intel планирует представить новую линейку 9200 в многочиповом дизайне, которая сочетает два кристалла Cascade Lake в упаковке BGA, каждое содержит до 28 ядер. В результате Intel сможет существенно увеличить вычислительную производительность в расчете на сокет/узел. Конечно, удвоение вычислительных ресурсов должно сопровождаться увеличением пропускной способности памяти и интерконнектов. В зависимости от нагрузки, система будет выигрывать от архитектуры NUMA и кэша L3. Но мы рассмотрели процессоры Xeon 9200 в отдельной статье.

VNNI и DL Boost: большая гибкость с новыми инструкциями

Intel уже несколько раз упоминала новый набор инструкций AVX-512 с расширением Vector Neural Network Instructions (VNNI). Вместе с объявлением процессоров Cascade Lake Intel более подробно разъяснила данный функционал.

Раньше матричные вычисления опирались на работу с числами с плавающей запятой. Но динамический диапазон данных чисел (FP32 обеспечивают до 2128) для простых матричных вычислений избыточен, поэтому DL Boost (общее название всех аппаратных и программных оптимизаций в данной сфере) использует для входных данных формат INT8, а выходной формат представляет собой уже INT32. Так что здесь будут обрабатываться намного менее сложные числа, так как INT8 обеспечивает диапазон значений 28 = 256, в случае INT32 мы получаем 232 - подобные числа обрабатывать намного проще, чем 2128. Меньшая сложность приводит к снижению нагрузки на кэш и пропускную способность памяти.

Если сравнивать Skylake и Cascade Lake, вычислительная производительность с одинарной и двойной точностью с добавлением AVX512 осталась прежней. Но поскольку теперь возможен расчет 4x INT MAC/такт по сравнению с AVX2 в процессорах Skylake-SP, новые CPU Cascade Lake теоретически получают четырехкратный прирост вычислительной производительности в данных вычислениях. Intel говорит, что на практике можно рассчитывать на трехкратное увеличение.

Intel даже приводит собственные тесты.

Причем оптимизации VNNI приводят не только к более высокой производительности, но и могут сопровождаться снижением энергопотребления. Также VNNI снижают промахи кэша L2. Что уменьшает запросы в кэш L3. Третье преимущество - снижение требований к пропускной способности памяти. Есть без VNNI пропускная способность может стать ограничивающим фактором, в случае VNNI этого уже наблюдаться не будет.

Поддержка VNNI в процессорах Xeon Scalable позволяет более гибко использовать их при тренировке сетей глубокого обучения и в инференсе. Впрочем, для инференса, то есть для запросов в сеть глубокого обучения, все же лучше подходят специализированные процессоры. Intel как раз предлагает здесь Agilex FPGAs.

Большая гибкость с Resource Director и Speed Select

Intel уже представила Resource Director Technology (RDT) с процессорами Broadwell Xeon. RDT позволяет Intel лучше распоряжаться доступными ресурсами. Администратор может выбирать между выделением ресурсов исключительно для указанной нагрузки и гибким распределением.

Технология выполняет мониторинг кэшей и пропускной спобосности памяти, позволяя гибко их распределять. Цель заключается в более высокой степени использования процессоров в дата-центрах, поскольку данный уровень весьма далек от теоретических 100%. В зависимости от платформы, использование ресурсов может быть и меньше 50%. То есть значительная часть аппаратных ресурсов простаивает значительное время. Между тем владельцы серверов наверняка заинтересованы в их максимальной нагрузке. Технология Resource Director Technology интересна, в первую очередь, облачным провайдерам, но ее имеет смысл поддержать и в дата-центрах компаний, хотя здесь все зависит от требований.

Технология разделяет задачи на высоко- и низкоприоритетные. Что позволяет лучше задействовать доступные аппаратные ресурсы. Хотя при этом администратор теряет определенную долю контроля над аппаратным обеспечением. Конечно, RDT не следует использовать для нагрузок, которые требуют исключительного доступа к ресурсам.

Speed Select Technology (SST) работает в паре с Resource Director Technology. Она позволяет выставлять на выбранных ядрах более высокие тактовые частоты. На других ядрах частоты, напротив, снижаются. Для начала Intel будет поддерживать три профиля на трех моделях Xeon.

Кроме того, существуют нагрузки, которые должны выполняться с определенной тактовой частотой, чтобы давать расчетную производительность. В случае Speed Select Technology данная проблема тоже решается, поскольку ресурсы CPU полностью контролируются.

Аппаратное устранение уязвимостей

Уязвимости Spectre и Meltdown будут оставаться горячей темой для Intel еще какое-то время. Напомним, что они являются реализацией атаки по сторонним каналам. В Cascade Lake внесены дальнейшие улучшения в данном отношении, опирающиеся на аппаратные и программные исправления.

  • Вариант 1. Защита осуществляется средствами ОС и VMM (Virtual Machine Monitor)
  • Вариант 2. Hardware Branch Prediction Hardening (предотвращение будущих атак по данному методу) + средствами ОС и VMM
  • Вариант 3. Hardware Hardening
  • Вариант 3a. Hardware
  • Вариант 4. Hardware + ОС/VMM
  • L1TF. Уже закрыта благодаря Hardware Hardening в варианте 3

Intel компенсирует некоторую потерю производительности из-за устранения уязвимостей увеличением общей производительности новых процессоров, в частности, благодаря увеличенным тактовым частотам. Прироста частоты 200-300 МГц будет достаточно, чтобы компенсировать потенциальную потерю производительности. Впрочем, тему уязвимостей нельзя назвать закрытой, так что будущим архитектурам CPU еще предстоит показать, насколько они защищены от атак методом стороннего канала.