> > > > NVIDIA ChatRTX: теперь с новыми LLM и поиском по изображениям

NVIDIA ChatRTX: теперь с новыми LLM и поиском по изображениям

Опубликовано:

hardwareluxx news newNVIDIA уже выпустила Chat with RTX – локальный инструмент, который может запускать LLM на компьютере и позволяет познакомиться с работой ИИ новичкам. Теперь представлен ChatRTX, который получил языковой компонент и расширен за счет включения больших языковых моделей Gemma и ChatGLM3. Последняя LLM работает на двух языках и поддерживает запросы как на английском, так и на китайском. Ранее NVIDIA уже сообщала, что Chat with RTX будет расширен за счет включения других LLM и функций.

В новой версии запросы в ChatRTX можно выполнять не только в виде текста с помощью клавиатуры (как в Chat with RTX), но и с помощью Whisper – приложения распознавания речи и преобразования в текст. Еще одна новая функция – интеграция OpenAI CLIP (Contrastive Language-Image Pre-training). Пользователи ChatRTX могут загружать в CLIP свои собственные изображения, которые затем анализируются и индексируются в соответствии с их содержанием. В дальнейшем пользователь может искать на изображениях нужные ему объекты или характеристики, используя простые запросы.

ChatRTX на практике

Мы какое-то время играли с Chat with RTX и решили попробовать ChatRTX. С первой версией мы работали чуть более интенсивно. Мы использовали LLM Mistral с семью миллиардами параметров и добавили все PDF-файлы из наших старых печатных изданий Hardwareluxx в качестве входного массива данных. Набор данных составил 8,4 ГБ и почти 2.500 отдельных PDF-файлов. Тренировка с дополнительными данными на GeForce RTX 4090 заняла всего несколько минут.

После этого мы смогли задавать запросы о содержании статей, которые не были доступны в Интернете и поэтому не могли стать частью массива данных Mistral. Именно в этом и заключается потенциал ChatRTX, поскольку вы можете быстро и легко предоставить LLM свои собственные данные, которые затем также будут учитываться через Retrieval Augmented Generation (RAG).

Что касается тестов CLIP, мы поместили несколько фотографий с праздников, которые ранее были без каких-либо метаданных. Здесь доступны только данные, сохраненные камерой, но нет описания содержимого. CLIP также потребовалось несколько минут на обучение и индексацию для примерно 5 ГБ данных и чуть менее 1.000 изображений, после чего по ним был открыт поиск.

Конечно, CLIP в таком виде не является чем-то новым и уже давно доступен пользователям iOS и библиотеки Photos или в Google Photos. Однако наличие такой системы, работающей локально, может стать полезным дополнением к метаданным, добавляемым вручную.

Для работы ChatRTX требуется видеокарта из серии GeForce RTX 30 или GeForce RTX 40 и не менее 100 ГБ свободной памяти на диске. Загрузить программу можно непосредственно с сайта NVIDIA.

Подписывайтесь на группу Hardwareluxx ВКонтакте и на наш канал в Telegram (@hardwareluxxrussia).