Intel впервые раскрыла спецификации вычислительной производительности GPU-ускорителя Ponte Vecchio, а также объяснила свои решения по выбору размера кэшей. На конференции ISC 22, которая прошла в конце мая, Intel впервые рассказала о вычислительной производительности, но сейчас тестировалась уже финальная версия чипа, что позволяет более точно оценить производительность в готовых решениях.
В таблице ниже мы сравнили производительность работы с FP64, FP32 и другими типами данных с официальными спецификациями NVIDIA H100:
Точность | Ponte Vecchio | H100 |
FP64 | 52 TFLOPS | 30 TFLOPS |
FP32 | 52 TFLOPS | 60 TFLOPS |
XMX Float (TF32) / Tensor Cores | 419 TFLOPS | 1.00 TFLOPS |
XMX BF16 | 839 TFLOPS | 2.000 TFLOPS |
XMX FP16 | 839 TFLOPS | 2.000 TFLOPS |
XMX INT8 | 1.678 TFLOPS | 4.000 TFLOPS |
Intel обеспечивает более высокую вычислительную производительность Ponte Vecchio при работе с высокой точностью FP64, но NVIDIA выходит вперед с ускорителем H100 на архитектуре Hopper в вычислениях с меньшей точностью. Причина кроется в ядрах Tensor четвертого поколения, для которых NVIDIA внесла дальнейшие оптимизации и обеспечила существенное ускорение в экстремальных случаях благодаря поддержке разреженных матриц.
Оба ускорителя Ponte Vecchio и NVIDIA H100 работают с TDP больше 500 Вт в составе модуля OAM. NVIDIA указывает целевой уровень H100 на 700 Вт, но Intel ограничилась 600 Вт.
Конечно, Intel на презентации может усилить свои преимущества, сравнивая с ускорителем NVIDIA A100, но если Ponte Vecchio не выйдет в ближайшие месяцы, ему придется конкурировать не с A100, а с его преемником H100.
Intel решила обойтись на Ponte Vecchio полностью без кэша L3. За кэшем L2 в иерархии стоит сразу видеопамять, в случае Ponte Vecchio это 128 Гбайт HBM2E. Иерархия показана на слайде ниже.
В ядрах Xe имеется регистровый файл на 64 Мбайт. Кэш L1 имеет такой же размер 64 Мбайт. Но пропускная способность кэша L1 снижается с 419 у регистрового файла до 105 Тбайт/с. Кэш L2 имеет емкость 408 Мбайт, он в шесть раз крупнее кэша L1. Intel объясняет подобное решение тем, что некоторые приложения выигрывают от более крупного кэша L2, хотя и не все. Пропускная способность здесь вновь снижается со 105 Тбайт/с у кэша L1 до 13 Тбайт/с у L3. Наконец, у памяти HBM2E она составляет 3,2 Тбайт/с.
Intel показала эффект увеличения размера кэша L2 на двух приложениях. В сети 2D FFT относительная вычислительная производительность упала с кэшем 32 Мбайт до 50%, объем 80 Мбайт тоже привел к пусть меньшему, но сравнимому падению. Здесь более крупный кэш L2 на ускорителе Ponte Vecchio действительно себя оправдывает.
В случае Deconvolutional Neural Network (DNN) ситуация иная. Вычислительная производительность при переходе на 80 Мбайт кэша L2 снижается на 15%, зависимость уже не такая существенная.
Intel планирует продемонстрировать преимущества над ускорителем NVIDIA A100 в различных тестах. Мы уже знаем результаты и повторим высказанную выше мысль: Intel сравнивает еще не вышедший ускоритель Ponte Vecchio с чипом, который присутствует на рынке уже два года. Здесь реальными конкурентами будут NVIDIA H100 и AMD Radeon Instinct MI250X.
Подписывайтесь на группу Hardwareluxx ВКонтакте и на наш канал в Telegram (@hardwareluxxrussia).