> > > > Hotchips 34: Intel раскрыла спецификации вычислительной производительности Ponte Vecchio

Hotchips 34: Intel раскрыла спецификации вычислительной производительности Ponte Vecchio

Опубликовано:

intel-ponte-vecchio-chipIntel впервые раскрыла спецификации вычислительной производительности GPU-ускорителя Ponte Vecchio, а также объяснила свои решения по выбору размера кэшей. На конференции ISC 22, которая прошла в конце мая, Intel впервые рассказала о вычислительной производительности, но сейчас тестировалась уже финальная версия чипа, что позволяет более точно оценить производительность в готовых решениях.

В таблице ниже мы сравнили производительность работы с FP64, FP32 и другими типами данных с официальными спецификациями NVIDIA H100:

Сравнение вычислительной производительности
Точность Ponte Vecchio H100
FP64 52 TFLOPS 30 TFLOPS
FP32 52 TFLOPS 60 TFLOPS
XMX Float (TF32) / Tensor Cores 419 TFLOPS 1.00 TFLOPS
XMX BF16 839 TFLOPS 2.000 TFLOPS
XMX FP16 839 TFLOPS 2.000 TFLOPS
XMX INT8 1.678 TFLOPS 4.000 TFLOPS

Intel обеспечивает более высокую вычислительную производительность Ponte Vecchio при работе с высокой точностью FP64, но NVIDIA выходит вперед с ускорителем H100 на архитектуре Hopper в вычислениях с меньшей точностью. Причина кроется в ядрах Tensor четвертого поколения, для которых NVIDIA внесла дальнейшие оптимизации и обеспечила существенное ускорение в экстремальных случаях благодаря поддержке разреженных матриц.

Оба ускорителя Ponte Vecchio и NVIDIA H100 работают с TDP больше 500 Вт в составе модуля OAM. NVIDIA указывает целевой уровень H100 на 700 Вт, но Intel ограничилась 600 Вт.

Конечно, Intel на презентации может усилить свои преимущества, сравнивая с ускорителем NVIDIA A100, но если Ponte Vecchio не выйдет в ближайшие месяцы, ему придется конкурировать не с A100, а с его преемником H100.

Intel решила обойтись на Ponte Vecchio полностью без кэша L3. За кэшем L2 в иерархии стоит сразу видеопамять, в случае Ponte Vecchio это 128 Гбайт HBM2E. Иерархия показана на слайде ниже.

В ядрах Xe имеется регистровый файл на 64 Мбайт. Кэш L1 имеет такой же размер 64 Мбайт. Но пропускная способность кэша L1 снижается с 419 у регистрового файла до 105 Тбайт/с. Кэш L2 имеет емкость 408 Мбайт, он в шесть раз крупнее кэша L1. Intel объясняет подобное решение тем, что некоторые приложения выигрывают от более крупного кэша L2, хотя и не все. Пропускная способность здесь вновь снижается со 105 Тбайт/с у кэша L1 до 13 Тбайт/с у L3. Наконец, у памяти HBM2E она составляет 3,2 Тбайт/с.

Intel показала эффект увеличения размера кэша L2 на двух приложениях. В сети 2D FFT относительная вычислительная производительность упала с кэшем 32 Мбайт до 50%, объем 80 Мбайт тоже привел к пусть меньшему, но сравнимому падению. Здесь более крупный кэш L2 на ускорителе Ponte Vecchio действительно себя оправдывает.

В случае Deconvolutional Neural Network (DNN) ситуация иная. Вычислительная производительность при переходе на 80 Мбайт кэша L2 снижается на 15%, зависимость уже не такая существенная.

Intel планирует продемонстрировать преимущества над ускорителем NVIDIA A100 в различных тестах. Мы уже знаем результаты и повторим высказанную выше мысль: Intel сравнивает еще не вышедший ускоритель Ponte Vecchio с чипом, который присутствует на рынке уже два года. Здесь реальными конкурентами будут NVIDIA H100 и AMD Radeon Instinct MI250X.

Подписывайтесь на группу Hardwareluxx ВКонтакте и на наш канал в Telegram (@hardwareluxxrussia).