Hardwareluxx > Новости > Софт > Прикладное ПО > MosaicML представила модель MPT-7B с открытым исходным кодом

MosaicML представила модель MPT-7B с открытым исходным кодом

Опубликовано: 08.05.2023 в 16:47 Андрей Шиллинг

hardwareluxx news new Большие языковые модели (Large Language Models или LLM) сегодня у всех на устах. Компания MosaicML специализируется на оптимизации программного обеспечения для систем искусственного интеллекта, поскольку оптимизация софта позволяет получить значительный прирост производительности. Например, увеличить скорость тренировки на 30% при прежнем аппаратном обеспечении.

Одна из проблем больших языковых моделей – они предоставляются как «черный ящик», их использование связано с определенными условиями. Для коммерческого использования предусмотрено лицензирование, разработчики сохраняют контроль над тем, кто получает доступ к LLM, а кто – нет.

MosaicML решила избавить индустрию от подобной зависимости и опубликовала LLM в виде открытого исходного кода с тренированным трансформером (MPT-7B). MosaicML тренировала модель на англоязычных текстах и коде программ. В состав LLM входит миллиард токенов, тренировка выполнялась больше девяти дней на 440 ускорителях NVIDIA A100 с 40 Гбайт памяти на каждом. MosaicML указывает расходы на тренировку $200 тысяч.

Как обычно, модель оптимизируется под разные сценарии: MPT-7B Instruct, MPT-7B Chat и MPT-7B StoryWriter. Instruct быстро отвечает на краткие пользовательские запросы. MPT-7B Chat уже может вести длительный диалог с пользователем. А MPT-7B StoryWriter может генерировать длинные тексты с контекстной длиной 65 тысяч токенов. Подробности каждой модели приведены в блоге MosaicML.

Используемые модели часто становятся пределом спора вокруг LLM. Дело в том, что многие данные защищены авторским правом. Конечно, они исчезнут в гигантском массиве, но проблема с защитой никуда не делась. И подобный вопрос, например, встал перед Meta и ее моделью LLaMA.

MosaicML, как мы описывали выше, предлагает услуги оптимизации софта в сфере ИИ, но также работает и с облачными провайдерами. Обычно тренировка моделей LLM связана с большими расходами, поэтому «потянуть» их могут только крупные компании. Оптимизация времени тренировки приводит к сокращению затрат.

Попробовать чат MosaicML MPT-7B можно здесь.

Подписывайтесь на группу Hardwareluxx ВКонтакте и на наш канал в Telegram (@hardwareluxxrussia).