> > > > До 96 ядер и SMT4: Marvell раскрыла подробности ThunderX3

До 96 ядер и SMT4: Marvell раскрыла подробности ThunderX3

Опубликовано:

marvell-thunderВесной Marvell уже рассказывала о грядущем процессоре ThunderX3. В частности, число должно составлять до 96. Чип оснащен восемью контроллерами памяти DDR4-3200, 64 линиями PCI Express 4.0 с односокетном варианте и 128 линиями PCI Express 4.0 в двухсокетном.

На конференции HotChips 32 были раскрыты новые подробности. В частности, процессоры выйдут с одним или двумя кристаллами. Оба производятся по 7-нм техпроцессу. Вариант с одним кристаллом оснащается до 60 ядрами, с двумя - до 96 ядрами, как было объявлено весной. Что несколько напоминает процессоры IBM POWER10, которые тоже выходят с одним и двумя кристаллами.

Ядра ThunderX3 базируются на ARM v8.3 ISA, но используют некоторые функции версий 8.4 и 8.5. Причем речь идет не об эталонном дизайне Neuverse от ARM, а о собственной разработке Marvell. Производитель говорит о 30% приросте однопоточной производительности при идентичных тактовых частотах с ядрами ThunderX2.

Остается поддержка SMT4, то есть возможность выполнять четыре потока на ядро. SMT4 гарантирует, что конвейеры отдельных ядер будут лучше загружаться. В случае настольных ПК технология Simultaneous Multithreading или SMT позволяет выполнять два потока на ядро (SMT2), Intel еще называет ее Hyper-Threading. Поэтому SMT4 не совсем обычна, хотя на серверном сегменте она встречается чаще. Например, процессоры IBM POWER10 поддерживают SMT8.

Также из-за нового коммутируемого кольцевого интерконнекта процессоры ThunderX3 получили прирост эффективности и производительности. Через интерконнект передаются данные на контроллеры памяти с восемью каналами DDR4-3200. К нему подключены контроллер с 64 линиями PCI Express 4.0 и 90 Мбайт кэша L3. В итоге Marvell и получает на 30% увеличившуюся производительность IPC. Что касается производительности на сокет, здесь заявлен прирост в два-три раза. Конечно, здесь учитывается увеличение числа ядер и более высокие тактовые частоты.

Если используется более одного сокета ThunderX3, Marvell опирается на интерконнект CCPI (Cavium Cache Coherent Interconnect) между процессорами.

Каждое ядро в составе процессора ThunderX3 оснащено 64 кбайт кэша инструкций L1 и 32 кбайт кэша данных L1. К ним можно добавить 512 кбайт кэша L2. Восемь блоков декодирования распределяют задачи по восьми вычислительным блокам, используя диспетчер с 70 записями. Восемь вычислительных блоков разделены на четыре АЛУ и четыре NEON.

Оптимизированные буферы и улучшенное предсказание переходов должны более оптимально загружать ядра и выполнять потоки. Кроме того, поддержка SMT4 тоже должна привести к оптимизации загрузки ядер. Если верить Marvell, избыточные вычислительные расходы на SMT4 составляют всего около 5%. Чтобы достичь подобного уровня, все потоки ядра частично используют общие, а частично эксклюзивные ресурсы.

Впрочем, в некоторых сценариях SMT в любой форме смысле не имеет. И для таких случаев SMT можно отключать.

Процессоры ThunderX3 должны выйти в версии с одним кристаллом ближе к концу 2020 года. В 2021 последует вариант с двумя кристаллами. А в 2022 году можно ждать нового преемника. Он пока находится в фазе дизайна.

Подписывайтесь на группы Hardwareluxx ВКонтакте и Facebook, а также на наш канал в Telegram (@hardwareluxxrussia).