На выставке CES 2025 компания AMD представила Ryzen AI Max+ 395 — первый в мире процессор для Windows-ПК с поддержкой ИИ, который способен локально запускать Llama 70B. Эту возможность обеспечили интеграция llama.cpp и LM Studio, что стало важным шагом на пути к локальному использованию больших языковых моделей (LLM) в среде Windows.
Теперь AMD анонсировала расширение объема доступной переменной видеопамяти, что позволяет запускать модели с до 128 миллиардов параметров через Vulkan llama.cpp под Windows. Это улучшение появится в драйверах Adrenalin Edition 25.8.1 WHQL и позволит полностью раскрыть потенциал памяти для ресурсоемких ИИ-задач — особенно на системах вроде Ryzen AI Max+ 395 с 128 ГБ ОЗУ и до 96 ГБ переменной видеопамяти.
Поддержка Llama 4 Scout и архитектуры Mixture-of-Experts
С этим обновлением Ryzen AI Max+ 395 стал первым процессором Windows AI PC, который может локально выполнять Meta Llama 4 Scout 109B с полной поддержкой Vision и MCP. Эта модель использует архитектуру Mixture-of-Experts, при которой в работу одновременно задействовано лишь 17 миллиардов параметров, но вся модель на 109 миллиардов должна полностью находиться в памяти. На практике это обеспечивает генерацию до 15 токенов в секунду, поэтому модель подходит для мобильных ИИ-сценариев.
Пользователи могут свободно переключаться на меньшие модели, когда им важна скорость, — итоговая производительность зависит от числа активных параметров.
Поддержка широкого спектра моделей и 16-битных весов
Процессор поддерживает модели от компактных 1B до крупных LLM, таких как Mistral Large, с различными настройками квантования через llama.cpp. Большой объем памяти позволяет запускать даже 16-битные модели. Модели с большим числом параметров улучшают точность, а кастомное квантование — гибко оптимизировать производительность под конкретную задачу.
Контекстное окно до 256 000 токенов
Еще один ключевой фактор — размер контекстного окна. В LM Studio по умолчанию он составляет 4096 токенов, но Ryzen AI Max+ 395 с новыми драйверами обеспечивает поддержку контекста длиной до 256 000 токенов при запуске Llama 4 Scout. Это открывает новые сценарии — например, агентные рабочие процессы, в которых нужно учитывать огромные объемы информации.
Демонстрации показывают, что система легко справляется с задачами вроде поиска и суммирования длинных SEC-документов или анализа научных статей из базы arXiv. Подобные сценарии часто требуют более 20 000 токенов в контексте, что выходит далеко за рамки прежних ограничений. Для энтузиастов, которые строят многошаговые рабочие процессы ИИ, такие возможности критичны. А вот обычным пользователям хватит и меньших значений.
Подписывайтесь на группу Hardwareluxx ВКонтакте и на наш канал в Telegram (@hardwareluxxrussia).
