NVIDIA представила нейросеть для генерации видео по описанию

Если вы хотели посмотреть, как имперский штурмовик пылесосит пляж.

Компания NVIDIA анонсировала новую ИИ-модель VideoLDM, которая по тексту создаёт короткие видеоролики. Она разработана в сотрудничестве с исследователями из Корнельского университета.

⭐ Отметьте Лайфхакер галочкой в избранных источниках Google: так вы чаще будете видеть проверенные статьи и поддержите нас.

VideoLDM учитывает до 4,1 миллиарда параметров, 2,7 миллиарда из которых обучены на видеоряде. Сгенерированные ролики могут иметь разрешение до 2048 × 1280 пикселей с частотой 24 кадра и иметь длительность до 4,7 секунды.

Нейросеть способна создавать как простые сцены с парой слов в запросе, так и что-то более сложное. Несколько примеров:

Фейерверки.

Штурмовик пылесосит пляж.

Путешественник гуляет один в туманном лесу на закате.

Больше примеров представлено на сайте проекта.

Этой нейросети NVIDIA пока нет в открытом доступе. Она была представлена как исследовательская работа в рамках Конференции по машинному зрению и распознаванию образов.

Разработчики отметили внушительный и быстрый прогресс в обучении, но не рассказали о возможном будущем нейросети. И тем не менее, можно предположить, что вскоре мы получим полноценный видеоаналог Midjourney.

Runway запускает новую модель нейросети для создания видео по текстовому описанию

10 сервисов на основе нейросетей для создания видео

7 инструментов на основе нейросетей для улучшения качества видео