Обзор: процессоры Intel Cascade Lake Xeon и память Optane DC Persistent Memory

Опубликовано:

intel-xeon-platinum2 апреля Intel представила второе поколение процессоров Intel Xeon Scalable. Они устанавливаются в платформу Purley, которая уже знакома нам по процессорам Skylake SP/AP. Но из-за изменений архитектуры, в частности, экосистемы хранения данных, Cascade Lake Xeon смотрятся лучше во многих областях. Сегодня мы рассмотрим архитектуру, а чуть позднее представим тесты.

Intel давно поняла, что громоздкая архитектура центрального процессора слишком неповоротлива. Сфер использования CPU сегодня настолько много, что чистый дизайн под вычислительную производительность FP64 или FP32 будет таким же неудачным, как, например, выпуск специализированных ускорителей для вычислений с пониженной точностью. Соответственно, в архитектуре Cascade Lake присутствуют многочисленные улучшения, которые позволяют ей быть более гибкой. Intel также масштабирует архитектуру на аппаратном уровне, в виде различных моделей, и теперь предлагает процессоры, специально оптимизированные под разные сценарии.

В архитектуре Cascade Lake Intel реализовала различные улучшения по сравнению со Skylake, которые оправдывают переход. Увеличилась емкость поддерживаемой памяти и скорость, в том числе это касается поддержки Intel Optane DC Persistent Memory. Изменения архитектуры также ориентированы на ускорение вычислений через специализированные наборы инструкций. Среди них - набор инструкций AVX-512 с поддержкой Vector Neural Network Instructions (VNNI), а также оптимизация программного кода, которую Intel объединяет под названием DL Boost. Также в архитектуре Cascade Lake Intel закрывает уязвимости, из-за которых была возможна атака методом бокового канала. Все же Spectre и Meltdown привели к далеко идущим последствиям.

В структуре Uncore по сравнению с Skylake-SP произошли заметные изменения. Здесь можно отметить улучшенную поддержку ускорения DL Boost и памяти Optane DC Persistent Memory, к которой мы еще вернемся чуть ниже.

Улучшения техпроцесса тоже имеются. Хотя процессоры Cascade Lake по-прежнему производятся по 14-нм техпроцессу, Intel внесла ряд улучшений, обеспечивающих увеличение частоты Boost по сравнению с предшественниками. Частота новых CPU на 200-300 МГц выше. Впрочем, ожидать революционного прироста частоты от процессоров Xeon Scalable второго поколения не приходится.

В high-end сегменте Intel планирует представить новую линейку 9200 в многочиповом дизайне, которая сочетает два кристалла Cascade Lake в упаковке BGA, каждое содержит до 28 ядер. В результате Intel сможет существенно увеличить вычислительную производительность в расчете на сокет/узел. Конечно, удвоение вычислительных ресурсов должно сопровождаться увеличением пропускной способности памяти и интерконнектов. В зависимости от нагрузки, система будет выигрывать от архитектуры NUMA и кэша L3. Но мы рассмотрели процессоры Xeon 9200 в отдельной статье.

VNNI и DL Boost: большая гибкость с новыми инструкциями

Intel уже несколько раз упоминала новый набор инструкций AVX-512 с расширением Vector Neural Network Instructions (VNNI). Вместе с объявлением процессоров Cascade Lake Intel более подробно разъяснила данный функционал.

Раньше матричные вычисления опирались на работу с числами с плавающей запятой. Но динамический диапазон данных чисел (FP32 обеспечивают до 2128) для простых матричных вычислений избыточен, поэтому DL Boost (общее название всех аппаратных и программных оптимизаций в данной сфере) использует для входных данных формат INT8, а выходной формат представляет собой уже INT32. Так что здесь будут обрабатываться намного менее сложные числа, так как INT8 обеспечивает диапазон значений 28 = 256, в случае INT32 мы получаем 232 - подобные числа обрабатывать намного проще, чем 2128. Меньшая сложность приводит к снижению нагрузки на кэш и пропускную способность памяти.

Если сравнивать Skylake и Cascade Lake, вычислительная производительность с одинарной и двойной точностью с добавлением AVX512 осталась прежней. Но поскольку теперь возможен расчет 4x INT MAC/такт по сравнению с AVX2 в процессорах Skylake-SP, новые CPU Cascade Lake теоретически получают четырехкратный прирост вычислительной производительности в данных вычислениях. Intel говорит, что на практике можно рассчитывать на трехкратное увеличение.

Intel даже приводит собственные тесты.

Причем оптимизации VNNI приводят не только к более высокой производительности, но и могут сопровождаться снижением энергопотребления. Также VNNI снижают промахи кэша L2. Что уменьшает запросы в кэш L3. Третье преимущество - снижение требований к пропускной способности памяти. Есть без VNNI пропускная способность может стать ограничивающим фактором, в случае VNNI этого уже наблюдаться не будет.

Поддержка VNNI в процессорах Xeon Scalable позволяет более гибко использовать их при тренировке сетей глубокого обучения и в инференсе. Впрочем, для инференса, то есть для запросов в сеть глубокого обучения, все же лучше подходят специализированные процессоры. Intel как раз предлагает здесь Agilex FPGAs.

Большая гибкость с Resource Director и Speed Select

Intel уже представила Resource Director Technology (RDT) с процессорами Broadwell Xeon. RDT позволяет Intel лучше распоряжаться доступными ресурсами. Администратор может выбирать между выделением ресурсов исключительно для указанной нагрузки и гибким распределением.

Технология выполняет мониторинг кэшей и пропускной спобосности памяти, позволяя гибко их распределять. Цель заключается в более высокой степени использования процессоров в дата-центрах, поскольку данный уровень весьма далек от теоретических 100%. В зависимости от платформы, использование ресурсов может быть и меньше 50%. То есть значительная часть аппаратных ресурсов простаивает значительное время. Между тем владельцы серверов наверняка заинтересованы в их максимальной нагрузке. Технология Resource Director Technology интересна, в первую очередь, облачным провайдерам, но ее имеет смысл поддержать и в дата-центрах компаний, хотя здесь все зависит от требований.

Технология разделяет задачи на высоко- и низкоприоритетные. Что позволяет лучше задействовать доступные аппаратные ресурсы. Хотя при этом администратор теряет определенную долю контроля над аппаратным обеспечением. Конечно, RDT не следует использовать для нагрузок, которые требуют исключительного доступа к ресурсам.

Speed Select Technology (SST) работает в паре с Resource Director Technology. Она позволяет выставлять на выбранных ядрах более высокие тактовые частоты. На других ядрах частоты, напротив, снижаются. Для начала Intel будет поддерживать три профиля на трех моделях Xeon.

Кроме того, существуют нагрузки, которые должны выполняться с определенной тактовой частотой, чтобы давать расчетную производительность. В случае Speed Select Technology данная проблема тоже решается, поскольку ресурсы CPU полностью контролируются.

Аппаратное устранение уязвимостей

Уязвимости Spectre и Meltdown будут оставаться горячей темой для Intel еще какое-то время. Напомним, что они являются реализацией атаки по сторонним каналам. В Cascade Lake внесены дальнейшие улучшения в данном отношении, опирающиеся на аппаратные и программные исправления.

Intel компенсирует некоторую потерю производительности из-за устранения уязвимостей увеличением общей производительности новых процессоров, в частности, благодаря увеличенным тактовым частотам. Прироста частоты 200-300 МГц будет достаточно, чтобы компенсировать потенциальную потерю производительности. Впрочем, тему уязвимостей нельзя назвать закрытой, так что будущим архитектурам CPU еще предстоит показать, насколько они защищены от атак методом стороннего канала.


Важной особенностью новых Xeon на архитектуре Cascade Lake является поддержка Optane DC Persistent Memory. Уже несколько месяцев Intel активно подчеркивала, что память Optane DC Persistent Memory будет играть ключевую роль с новыми процессорами Cascade Lake Xeon.

Изначально память Optane DC Persistent Memory должна была стартовать еще с процессорами Skylake SP на платформе Purley, но, как получилось, выход был отложен до появления Cascade Lake. Сама платформа уже готова, поэтому многие серверы и материнские платы содержат определенное количество слотов DIMM для установки модулей Optane DC Persistent Memory. Процессоры Skylake SP и платформа Purley использовались Intel в качестве тестового решения для апробации Optane DC Persistent Memory.

Optane DC Persistent Memory - последнее звено в пирамиде памяти, которую часто приводит Intel. В зависимости от важности данных и требований по скорости доступа, они хранятся на разных уровнях.

Кэш обеспечивает наиболее быстрый доступ к данным с задержками порядка нано- и пикосекунд, но для хранения больших объемов данных подходит только оперативная память, причем сейчас в ней можно хранить сотни гигабайт или даже терабайты. Но и время доступа составляет не ниже 100 нс. Накопители Optane DC SSD обеспечивают емкость в несколько терабайт, но и время доступа сравнительно медленное - 10 мс. На следующих уровнях располагаются стандартные SSD, 3D NAND SSD и HDD.

Конечно, было бы хорошо хранить все данные на ram-диске, но память DRAM стоит дорого, и ее объемы в серверах не бесконечны. Optane DC Persistent Memory как раз закрывает брешь между DRAM и Optane DC SSD. По сути, ее можно воспринимать как ram-диск.

Память Optane DC Persistent Memory может прозрачно интегрироваться в платформу, пользователю и администратору не видно, какая доля в хранении данных отводится DRAM или Optane DC Persistent Memory. За все это отвечает контроллер памяти, который работает с DRAM и Optane DC Persistent Memory по одним и тем же физическим подключениям.

Максимум половина слотов DIMM может быть занята Optane DC Persistent Memory (один модуль DRAM и один DC Memory на канал). Память Optane DC Persistent Memory доступна в виде модулей DIMM емкостью 128, 256 и 512 Гбайт. Максимальный объем памяти на сокет составляет 6x 128 Гбайт DDR4 + 6x 512 Гбайт Optane DC Persistent Memory, то есть 3,84 Тбайт. Как только соответствующие планки DDR4 появятся на рынке, некоторые процессоры Xeon будут также поддерживать и модули DDR4 на 256 Гбайт. В таком случае объем памяти на сокет увеличится до 4,5 Тбайт. При установке памяти в слоты следует убедиться, что модули Optane DC Persistent Memory расположены ближе к контроллеру памяти чем DRAM на том же канале.

Но есть и дополнительные режимы смешанных конфигураций DRAM и Optane DC Persistent Memory. В режиме App Direct Mode доступ к памяти со стороны приложений можно сконфигурировать явно. Для этой цели Intel разработала модель программирования, приложения в App Direct Mode могут напрямую работать с памятью Optane DC Persistent Memory.

Во втором режиме Storage over App Direct память Optane DC Persistent Memory рассматривается как SSD или HDD. Можно задавать размеры блока и файловые системы, в которых данные будут записываться в память и считываться. Доступны и смешанные режимы, при которых разные каналы памяти будут работать по-разному.

Для работы с памятью Optane DC Persistent Memory используется протокол DDR-T. Доступ к памяти Optane DC Persistent Memory осуществляется по шине DRAM, модули электрически и механически идентичны DDR4. Данные в энергозависимой и энергонезависимой памяти хранятся только в зашифрованном виде. Соответствующий ключ хранится на DIMM. Ключ сбрасывается при каждой загрузке или потере питания, после чего он создается заново. То есть какое-либо механическое вмешательство не позволит считать данные.

Модули Optane DC Persistent Memory нельзя назвать экономичными, но их можно настраивать для разного уровня энергопотребления и, следовательно, производительности. Можно выбирать уровень энергопотребления от 12 до 18 Вт с шагом 0,25 Вт. Пропускная способность планок DIMM составляет между 0,73 и 8,3 Гбайт/с, в зависимости от вида доступа к памяти (чтение/запись) и настройки энергопотребления.

Характеристики Optane DC Persistent Memory

Помимо производительности памяти возникает вопрос о ее надежности. Если верить Intel, модули Optane DC Persistent Memory разработаны для нагрузки записи PBW (Petabyte Written) от чуть более 200 до 350 PBW. Дизайн памяти рассчитан на длительную работу на протяжении пяти лет, конкретные спецификации зависят от сценария. Чем большую долю в нагрузке занимает чтение данных, тем выше значение PBW. Также есть зависимость между сроком службы, емкостью и режимами работы в плане производительности/энергопотребления. Приведенные выше значения рассчитаны для уровня 15 Вт на модуль. Если модули работают в режиме 12 Вт, то и прослужат дольше. При более высоком энергопотреблении результат может быть хуже.

На диаграмме выше показано позиционирование памяти Optane DC Persistent Memory в иерархии хранения данных. Задержки памяти лучше, чем у Optane DC SSD и классических NAND SSD из-за принципа хранения данных, но у накопителей есть преимущество в виде крупных блоков (4 кбайт) по сравнению с мелкими блоками (64 байт и 256 байт) памяти Optane DC Persistent Memory. Поэтому чем меньше порции данных и чем более важным является быстрый доступ к этим порциям, тем более актуальна Optane DC Persistent Memory.

Как мы упомянули выше, доступ к Optane DC Persistent Memory осуществляется по тем же каналам, что и DRAM. Пропускная способность памяти очень сильно зависит от сценариев. Если требуется пропускная способность 16 или 40 Гбайт/с, то она обеспечивается сравнительно стабильно, независимо от промахов кэша. Но в случае 110 Гбайт/с промахи кэша ведут к быстрому снижению пропускной способности. Так что при использовании Optane DC Persistent Memory важно оценивать потенциальные сценарии работы и требования к пропускной способности памяти.

На практике преимущество использования Optane DC Persistent Memory заключается, в первую очередь, в более высокой емкости. Вместо 12x 128 GB DDR4, то есть1.536 Гбайт на сокет, теперь возможна установка 6x 128 GB (или даже 6x 256 GB) + 6x 512 GB, то есть 3,84 Тбайт (4,5 Тбайт). Более высокая емкость памяти может привести к тому, например, что каждая виртуальная машина (VM) получит больше памяти. Или можно запускать больше VM на сервере. Если раньше данные не умещались в DRAM, теперь их можно хранить в более емкой Optane DC Persistent Memory, доступ к ним будет быстрее, чем в случае SSD.

Также у Optane DC Persistent Memory есть преимущество по цене. Подобный DIMM на 128 Гбайт обойдется в $577, 256-Гбайт модуль стоит $2.125, а самые емкие модули Optane DC Persistent Memory 512 Гбайт будут стоить $6.751. Память DDR4 с поддержкой ECC стоит порядка $700 за модуль емкостью 64 Гбайт и более $1.000 за 128-Гбайт модуль.


Теперь перейдем непосредственно к процессорам. В общей сложности Intel запланировала 52 модели процессоров Xeon Scalable второго поколения - в том числе специальные CPU с поддержкой Intel Speed Select Technology, чипы для работы на высоких температурах и для сетевых решений.

Названия CPU Xeon Scalable второго поколения почти идентичны первому поколению. Отличает процессоры двойка вместо единицы, указывающая на второе поколение. Категории Platinum, Gold, Silver и Bronze нам знакомы.

Также будут добавлены новые серии CPU. И последние символы в названии как раз указывают на принадлежность к той или иной серии. В целом, запутаться можно легко.

Новая линейка 9000 процессоров Xeon Platinum рассмотрена нами в отдельной статье. Дизайн MCM все же имеет ряд отличительных черт, на которых мы остановимся отдельно.

Перейдем к процессорам high-end категории:

Сравнение процессоров Xeon Scalable второго поколения
Модель Ядра/ потоки Базовая частота/ TurboКэшTDPDCPMMЦена
Xeon Platinum 928256 / 112 2,6 / 3,8 ГГц77 MB400 Вт--
Xeon Platinum 924248 / 96 2,3 / 3,8 ГГц71,5 MB350 Вт--
Xeon Platinum 9222
32 / 64 2,3 / 3,7 ГГц71,5 MB250 Вт--
Xeon Platinum 922132 / 64 2,1 / 3,7 ГГц71,5 MB250 Вт--
Xeon Platinum 8280
28 / 56 2,7 / 4,0 ГГц38,5 MB205 Вт10.009 USD
Xeon Platinum 8270
26 / 52 2,7 / 4,0 ГГц35,75 MB205 Вт7.405 USD
Xeon Platinum 8268
24 / 48 2,9 / 3,9 ГГц35,75 MB205 Вт6.302 USD
Xeon Platinum 8256
24 / 48 3,8 / 3,9 ГГц16,5 MB105 Вт7.007 USD
Xeon Gold 6254 18 / 36 3,1 / 4,0 ГГц24,75 MB200 Вт3.803 USD
Xeon Gold 6244 8 / 16 3,6 / 4,4 ГГц24,75 MB150 Вт2.925 USD
Xeon Gold 6242 16 / 32 2,8 / 3,9 ГГц22 MB150 Вт2.529 USD
Xeon Gold 6234 8 / 16 3,3 / 4,0 ГГц24,75 MB130 Вт2.214 USD
Xeon Gold 6226 12 / 24 2,8 / 3,7 ГГц19,25 MB125 Вт1.776 USD
Xeon Gold 5222 4 / 8 3,8 / 3,9 ГГц16,5 MB105 Вт1.221 USD
Xeon Gold 5217 8 / 16 3,0 / 3,7 ГГц16,5 MB115 Вт1.522 USD
Xeon Gold 5215 10 / 20 2,5 / 3,4 ГГц16,5 MB85 Вт1.221 USD
Xeon Silver 4215 8 / 16 2,5 / 3,5 ГГц16,5 MB85 Вт794 USD

Среди приведенных процессоров Xeon Platinum 8280 и Xeon Gold 5215 также поддерживают память DDR4 емкостью 256 Гбайт на модуль. В результате максимальная поддерживаемая емкость на сокет составляет 4,5 Тбайт - соответствующие SKU продаются отдельно от обычных. Цен линейки Xeon Platinum 9200 пока не объявлено.

Процессоры Scalable Performance:

Сравнение процессоров Scalable Performance
Модель Ядра/ потоки Базовая частота/ TurboКэшTDPDCPMMЦена
Xeon Platinum 827628 / 56 2,2 / 4,0 ГГц38,5 MB165 Вт8.719 USD
Xeon Platinum 826024 / 48 2,4 / 3,9 ГГц35,7 MB165 Вт
4.702 USD
Xeon Platinum 8253
16 / 32 2,2 / 3,0 ГГц35,7 MB165 Вт3.115 USD
Xeon Gold 625224 / 48 2,1 / 3,7 ГГц35,75 MB150 Вт3.665 USD
Xeon Gold 6248
20 / 40 2,5 / 3,9 ГГц27,5 MB150 Вт3.072 USD
Xeon Gold 6240 18 / 36 2,6 / 3,9 ГГц24,75 MB150 Вт2.445 USD
Xeon Gold 6238
22 / 44 2,1 / 3,7 ГГц30,25 MB140 Вт2.612 USD
Xeon Gold 6230
20 / 40 2,1 / 3,9 ГГц27,5 MB125 Вт1.894 USD
Xeon Gold 5220 18 / 36 2,2 / 3,9 ГГц24,75 MB125 Вт1.555 USD
Xeon Gold 5218 16 / 32 2,3 / 3,9 ГГц22 MB125 Вт1.273 USD
Xeon Silver 4216 16 / 32 2,1 / 3,2 ГГц16,5 MB100 Вт1.002 USD
Xeon Silver 4214
12 / 24 2,2 / 3,2 ГГц16,5 MB85 Вт694 USD
Xeon Silver 4210
10 / 20 2,2 / 3,2 ГГц13,75 MB85 Вт501 USD
Xeon Silver 4208
8 / 16 2,1 / 3,2 ГГц11 MB85 Вт417 USD
Xeon Bronze 3204 6 / 12 1,9 / 1,9 ГГц8,25 MB85 Вт213 USD

Среди приведенных выше процессоров тоже есть модели с поддержкой модулей DDR4 емкостью 256 Гбайт. А именно вторые SKU для Xeon Platinum 8276, 8260, 8253, а также Xeon Gold 6240 и 6238.

Перейдем к специализированным процессорам.

Сравнение процессоров Scalable Performance
Модель Ядра/ потоки Базовая частота/ TurboКэшTDPDCPMMЦена
Xeon Platinum 8260Y24 / 48 2,4 / 3,9 ГГц35,75 MB165 Вт5.320 USD
Xeon Gold 6240Y18 / 36 2,6 / 3,9 ГГц24,75 MB150 Вт
2.726 USD
Xeon Silver 4214Y
12 / 24 2,2 / 3,2 ГГц16,5 MB85 Вт-768 USD
Xeon Gold 6252N24 / 48 2,3 / 3,6 ГГц35,75 MB150 Вт3.984 USD
Xeon Gold 6230N
20 / 40 2,3 / 3,5 ГГц27,5 MB125 Вт2.046 USD
Xeon Gold 5218N 16 / 32 2,3 / 3,9 ГГц22 MB105 Вт1.375 USD
Xeon Gold 6262V
24 / 48 1,9 / 3,6 ГГц33 MB135 Вт2.900 USD
Xeon Gold 6222V
20 / 40 1,8 / 3,6 ГГц27,5 MB115 Вт1.600 USD
Xeon Gold 6238T 22 / 44 1,9 / 3,7 ГГц30,25 MB125 Вт2.742 USD
Xeon Gold 6230T 20 / 40 2,1 / 3,9 ГГц27,5 MB125 Вт1.988 USD
Xeon Gold 5220T 18 / 36 2,2 / 3,9 ГГц24,75 MB105 Вт1.727 USD
Xeon Silver 4209T
8 / 16 2,2 / 3,2 ГГц11 MB70 Вт-501 USD
Xeon Gold 5220S
18 / 36 2,7 / 3,9 ГГц24,75 MB125 Вт2.000 USD

Как видим, спектр процессоров Xeon Scalable второго поколения весьма широк.

Для некоторых CPU Intel обещает прирост производительности в 1,6 раза. Если внимательно рассмотреть некоторые модели и сравнить с предшествующими CPU, то Intel не только немного увеличила тактовые частоты, но и в ряде случаев добавила ядра. Например, если у Intel Xeon 6130 использовалось только 16 ядер, Xeon 6230N получил 20. То же самое можно видеть и для некоторых других CPU.

В нашу тестовую лабораторию поступили два Xeon Platinum 8280 от Intel, что позволило нам провести тесты. Результаты мы опубликуем позднее.

Конечно, Intel показала некоторые сценарии использования новых CPU. Можно отметить сравнение производительности Cascade Lake AP с 48 ядрами (не топовая модель) и AMD EPYC 7602 с 64 ядрами. Симуляция расчета молекулы работала на системе Cascade Lake AP работала с 10,65 нс в день, на процессоре EPYC - 9,86 нс в день. Что Intel так и не смогла достичь с 28-ядерным Xeon Platinum 8180, стало возможно с 48-ядерным MCM Xeon.

Технология DL Boost призвана ускорить обработку данных в сфере медицины. Intel указывает пятикратный прирост производительности благодаря использованию INT8 вместо FP32. Сети доставки контента теперь будут работать еще быстрее благодаря большим объемам Optane DC Persistent Memory, а также со сниженной нагрузкой. В случае сетей доставки контента измеряется время до последнего байта (Time to Last Byte, TTLB), в случае потоковых сервисов - время до первого кадра (Time to First Frame, TTFF). И там, и там память Optane DC Persistent Memory обеспечит более быструю доставку данных при меньшей нагрузке на сеть доставки контента, причем даже с более высокой пропускной способностью.

В сочетании с новыми сетевыми картами Ethernet 800, которые обеспечивают скорость передачи до 100 Мбит/с, Intel выиграет от дальнейшей синергии. Что рано или поздно перейдет и в экосистему дата-центров. Также можно ожидать прироста производительности при работе с крупными базами данных и сетями глубокого обучения (тренировка и инференс). Мы со своей стороны планируем провести дополнительные тесты.