> > > > TPU 8t и TPU 8i: Google представила новое поколение ИИ-ускорителей

TPU 8t и TPU 8i: Google представила новое поколение ИИ-ускорителей

Опубликовано:

hardwareluxx news newС выходом восьмого поколения TPU компания Google адаптирует свои чипы под растущие требования крупных LLM и моделей Mixture-of-Experts (MoE), готовясь к эпохе агентного ИИ. Как и раньше, компания предлагает два варианта: TPU 8t для обучения и TPU 8i для инференса.

TPU 8t получил специализированный блок SparseCore. Он обрабатывает нерегулярные обращения к памяти при embedding-lookup, разгружая основное вычислительное ядро. В то время как MXU (Matrix Multiply Unit) выполняет матричные операции, SparseCore берет на себя операции All-Gather, зависящие от данных, и другие коллективные обмены. Это устраняет узкие места класса «zero-op», характерные для универсальных архитектур.

Чип эффективнее загружает вычислительные блоки. Google переработала баланс VPU, благодаря чему операции вроде квантования, Softmax и нормализации слоев выполняются с перекрытием по времени с матричными вычислениями в MXU. В итоге снижаются простои и растет эффективность использования ресурсов.

Дополнительно внедрили поддержку FP4. Это снижает нагрузку на память и удваивает пропускную способность MXU без заметной потери точности на крупных моделях. Меньшая разрядность сокращает объем передаваемых данных и позволяет держать больше параметров в локальных буферах, что напрямую повышает загрузку вычислительных блоков.

TPU 8t TPU 8i
Назначение Обучение Инференс
SRAM 128 МБ 384 МБ
HBM 216 ГБ HBM3E 288 ГБ HBM3
Пропускная способность HBM 6 528 ГБ/с 8 601 ГБ/с
FP4-производительность 12,6 PFLOPS 10,1 PFLOPS

TPU 8i ориентирован на инференс и постобработку. Он получил увеличенный объем встроенной SRAM, новый блок Collectives Acceleration Engine (CAE) и сетевую топологию Boardfly. Такая комбинация снижает задержки и повышает эффективность при высокой параллельной нагрузке.

Увеличение SRAM в три раза позволяет держать значительно более крупный KV-кэш прямо на чипе. Это особенно важно для длинных контекстов: уменьшается обмен с внешней памятью и сокращаются простои.

Для устранения узких мест при генерации TPU 8i использует блок CAE. Он ускоряет операции редукции и синхронизации, необходимые при autoregressive decoding и Chain-of-Thought. На каждом TPU 8i установлены два Tensor Core, а CAE реализован как отдельный чиплет и заменяет четыре SparseCore предыдущего поколения Ironwood. В результате задержки коллективных операций снижаются в пять раз, что напрямую увеличивает пропускную способность — это критично при параллельной работе большого числа ИИ-агентов.

Сетевая архитектура тоже изменилась. Вместо классической 3D-torus топологии применили high-radix дизайн: сначала чипы объединяют в полностью связные платы, затем — в более крупные группы. Это сокращает число переходов и уменьшает задержки. В итоге можно напрямую связать до 1 152 чипов.

Обе версии TPU масштабируются до кластеров из тысяч ускорителей. Ключевую роль играет сеть Virgo с высокой пропускной способностью и низкой задержкой. В максимальной конфигурации кластер объединяет до 134 000 TPU 8t и обеспечивает суммарную пропускную способность 47 Пбит/с.

Подписывайтесь на группу Hardwareluxx ВКонтакте и на наш канал в Telegram (@hardwareluxxrussia).