> > > > Taalas HC1: Llama 3.1 8B — инференс, «зашитый» в кремний

Taalas HC1: Llama 3.1 8B — инференс, «зашитый» в кремний

Опубликовано:

hardwareluxx news newРост размеров ИИ-моделей напрямую повышает требования к объему и пропускной способности памяти. Именно спрос со стороны ИИ-ускорителей во многом спровоцировал текущий дефицит памяти. Одновременно падает экономическая эффективность: чтобы обслуживать крупные LLM, разработчикам приходится ставить дорогую HBM и сложные решения с продвинутым корпусированием, что резко увеличивает стоимость платформы.

Канадская компания Taalas предлагает альтернативный подход. Вместо того чтобы хранить веса модели в локальной памяти и постоянно обращаться к ним при инференсе, разработчики «зашивают» веса и всю архитектуру LLM непосредственно в кристалл. Такой подход жестко привязывает ускоритель к одной конкретной модели, зато кратно ускоряет инференс.

HC1 — это один крупный чип с интегрированной моделью Llama 3.1 8B. По современным меркам восемь миллиардов параметров — скромный масштаб, но для первого поколения архитектуры этого достаточно. Очевидно, что разработка специализированного кремния не успевает за эволюцией LLM, которые обновляются каждые несколько месяцев. Тем не менее Taalas намерена сократить этот разрыв.

По данным компании, первый чип спроектировали за несколько месяцев, а бюджет проекта составил около 30 млн долларов. В перспективе Taalas хочет уложить перенос конкретной ИИ-модели в кремний в два месяца. Главным ограничителем остается производство: этап tape-out и последующая верификация занимают месяцы. Чтобы ускорить цикл, придется либо оптимизировать процесс, либо увеличить затраты.

HC1 выпускает TSMC. Вместо передовых техпроцессов компания выбрала более доступный N6. Площадь кристалла достигает 815 мм² — это фактически предел ретикулы для EUV-производства. Существенно увеличить площадь уже нельзя, а текущий чип вмещает только Llama 3.1 8B.

Использование N6 снижает себестоимость. Кроме того, архитектура не требует дорогостоящей HBM и сложного продвинутого корпусирования (advanced packaging), что дополнительно упрощает внедрение. Однако подход накладывает ограничения: в кристалл можно «залить» только модель разумного размера. Llama 3.1 8B насчитывает 8 млрд параметров. Современные LLM и MoE-модели (Mixture-of-Experts) оперируют сотнями миллиардов параметров, а некоторые уже преодолели отметку в триллион. Перенести такие модели в один кристалл сегодня невозможно.

Сильная сторона «зашитой» модели — скорость и энергоэффективность. По данным Taalas, HC1 генерирует на пользователя более чем в восемь раз больше токенов в секунду по сравнению с текущим лидером — Cerebras WSE-3. Показатель time to first token (TTFT) также минимален. Для этого инженеры квантовали веса до 3- или 6-битных форматов данных.

Весной 2026 года Taalas планирует выпустить вторую версию HC1 с другой моделью — уже на несколько сотен миллиардов параметров. Пока неясно, где и по какому техпроцессу ее изготовят: текущий HC1 на N6 уже упирается в пределы по площади. Теоретически компания может объединить несколько кристаллов в единую систему.

На рубеже 2026/27 годов ожидается HC2. Он перейдет на 4-битное представление данных и нацелится на исполнение актуальных к тому моменту frontier-моделей.

Главная стратегическая проблема для Taalas — сохранить гибкость в гонке моделей. Универсальные ускорители от AMD, NVIDIA, Google и других игроков запускают широкий спектр ИИ-нагрузок с разной степенью эффективности. Однако если задача сводится к массовому инференсу конкретной модели в течение длительного времени, специализированный чип с «зашитой» архитектурой может оказаться экономически выгоднее универсального решения.

Подписывайтесь на группу Hardwareluxx ВКонтакте и на наш канал в Telegram (@hardwareluxxrussia).