Hardwareluxx > Новости > Общая информация > Технологии > OpenAI представляет систему искусственного интеллекта Sora: текст в видео (обновление)

OpenAI представляет систему искусственного интеллекта Sora: текст в видео (обновление)

Опубликовано: 14.03.2024 в 09:15 Андрей Шиллинг

hardwareluxx news new OpenAI представила новую модель искусственного интеллекта под названием Sora, которая может преобразовывать текст в видео. Короткие и точные запросы преобразуются в видео длиной до одной минуты. Языковая модель ChatGPT или визуальный генеративный ИИ для изображений DALL-E 3, Midjourney, Stable Diffusion уже давно стали частью повседневной жизни многих пользователей и применяются для различных сфер.

Sora способна генерировать сложные сцены с множеством объектов, хорошей детализацией и фоном. Как и при генерации изображений, модель понимает, что пользователь хочет получить с помощью запроса, но при этом учитывает правильное физическое поведение объектов в конкретной среде. Автомобиль на грунтовой дороге, например, поднимает пыль. Если на земле лежат сухие листья и дует ветер, то эти листья будут сдуваться.

Но OpenAI также описывает ограничения текущей модели. Например, она может не справляться с точным моделированием физики сложной сцены и не понимать некоторые причинно-следственные связи. То есть человек может откусить печенье, но после этого на нем не останется следов укуса.

Для тренировки Sora использовались изображения и видеоданные из самых разных источников. В том числе изображения, сгенерированные DALL-E. В настоящее время Sora может генерировать видео в форматах 1.920 x 1.080 пикселей, 1.080 x 1.920 пикселей и всех промежуточных форматах. Максимальная продолжительность - 60 секунд.

Неизвестно, когда Sora станет доступна пользователям в качестве сервиса. Возможно, сначала OpenAI хочет исправить некоторые текущие ошибки и ограничения. Более подробную техническую информацию о Sora можно найти непосредственно на сайте OpenAI.

Готов ли мир к Sora?

Прежде чем выпустить Sora, OpenAI хочет убедиться в наличии определенных механизмов безопасности, которые не позволят использовать созданные ИИ видеоролики для дезинформации, разжигания ненависти и тому подобного. Также разрабатываются инструменты Detection Classifier, которые позволят распознать, было ли видео создано Sora или нет. Разработчики планируют добавить метаданные C2PA. То есть видео (или сгенерированное изображение) будет содержать информацию идентификации.

Конечно, метаданные могут быть изменены или удалены. Производители фотоаппаратов, например, планируют подписывать снимки, чтобы они помечались как реально снятые. Но даже такая мера вряд ли обеспечит полную защиту. Как только произойдет утечка ключей подобных сертификатов, фотографии и видео, сгенерированные искусственным интеллектом, можно будет маркировать как «настоящие».

Мы собрали несколько примеров видеороликов от OpenAI вместе с соответствующими запросами в одном видео. Для чтения запросов рекомендуем ненадолго ставить видео на паузу.

Конечно, если поискать ошибки непосредственно в видеофрагментах, то найти их можно. Однако важно понимать, что на данный момент это очень «сырая» технология «текст в видео», и дальше она будет только развиваться и совершенствоваться.

Первой центральной и, возможно, целевой областью применения видео, созданных ИИ, могут стать стоковые видеоролики - аналогично тому, как это уже происходит с изображениями.

Обновление:

По словам главного технического директора (CTO) OpenAI Миры Мурати (Mira Murati), видео ИИ движок Sora будет доступен для публики в 2024 году. Мурати подтвердила это изданию Wall Street Journal. В скором времени в видеоролики будет добавлен звук, и их можно будет редактировать прямо онлайн. OpenAI пока не объявила цену.

Подписывайтесь на группу Hardwareluxx ВКонтакте и на наш канал в Telegram (@hardwareluxxrussia).