С выходом восьмого поколения TPU компания Google адаптирует свои чипы под растущие требования крупных LLM и моделей Mixture-of-Experts (MoE), готовясь к эпохе агентного ИИ. Как и раньше, компания предлагает два варианта: TPU 8t для обучения и TPU 8i для инференса.
TPU 8t получил специализированный блок SparseCore. Он обрабатывает нерегулярные обращения к памяти при embedding-lookup, разгружая основное вычислительное ядро. В то время как MXU (Matrix Multiply Unit) выполняет матричные операции, SparseCore берет на себя операции All-Gather, зависящие от данных, и другие коллективные обмены. Это устраняет узкие места класса «zero-op», характерные для универсальных архитектур.
Чип эффективнее загружает вычислительные блоки. Google переработала баланс VPU, благодаря чему операции вроде квантования, Softmax и нормализации слоев выполняются с перекрытием по времени с матричными вычислениями в MXU. В итоге снижаются простои и растет эффективность использования ресурсов.
Дополнительно внедрили поддержку FP4. Это снижает нагрузку на память и удваивает пропускную способность MXU без заметной потери точности на крупных моделях. Меньшая разрядность сокращает объем передаваемых данных и позволяет держать больше параметров в локальных буферах, что напрямую повышает загрузку вычислительных блоков.
| TPU 8t | TPU 8i | |
|---|---|---|
| Назначение | Обучение | Инференс |
| SRAM | 128 МБ | 384 МБ |
| HBM | 216 ГБ HBM3E | 288 ГБ HBM3 |
| Пропускная способность HBM | 6 528 ГБ/с | 8 601 ГБ/с |
| FP4-производительность | 12,6 PFLOPS | 10,1 PFLOPS |
TPU 8i ориентирован на инференс и постобработку. Он получил увеличенный объем встроенной SRAM, новый блок Collectives Acceleration Engine (CAE) и сетевую топологию Boardfly. Такая комбинация снижает задержки и повышает эффективность при высокой параллельной нагрузке.
Увеличение SRAM в три раза позволяет держать значительно более крупный KV-кэш прямо на чипе. Это особенно важно для длинных контекстов: уменьшается обмен с внешней памятью и сокращаются простои.
Для устранения узких мест при генерации TPU 8i использует блок CAE. Он ускоряет операции редукции и синхронизации, необходимые при autoregressive decoding и Chain-of-Thought. На каждом TPU 8i установлены два Tensor Core, а CAE реализован как отдельный чиплет и заменяет четыре SparseCore предыдущего поколения Ironwood. В результате задержки коллективных операций снижаются в пять раз, что напрямую увеличивает пропускную способность — это критично при параллельной работе большого числа ИИ-агентов.
Сетевая архитектура тоже изменилась. Вместо классической 3D-torus топологии применили high-radix дизайн: сначала чипы объединяют в полностью связные платы, затем — в более крупные группы. Это сокращает число переходов и уменьшает задержки. В итоге можно напрямую связать до 1 152 чипов.
Обе версии TPU масштабируются до кластеров из тысяч ускорителей. Ключевую роль играет сеть Virgo с высокой пропускной способностью и низкой задержкой. В максимальной конфигурации кластер объединяет до 134 000 TPU 8t и обеспечивает суммарную пропускную способность 47 Пбит/с.
Подписывайтесь на группу Hardwareluxx ВКонтакте и на наш канал в Telegram (@hardwareluxxrussia).
