NVIDIA представила нейросеть для генерации видео по описанию
Компания NVIDIA анонсировала новую ИИ-модель VideoLDM, которая по тексту создаёт короткие видеоролики. Она разработана в сотрудничестве с исследователями из Корнельского университета.
VideoLDM учитывает до 4,1 миллиарда параметров, 2,7 миллиарда из которых обучены на видеоряде. Сгенерированные ролики могут иметь разрешение до 2048 × 1280 пикселей с частотой 24 кадра и иметь длительность до 4,7 секунды.
Нейросеть способна создавать как простые сцены с парой слов в запросе, так и что-то более сложное. Несколько примеров:
- Фейерверки.
- Штурмовик пылесосит пляж.
- Путешественник гуляет один в туманном лесу на закате.
Больше примеров представлено на сайте проекта.
Этой нейросети NVIDIA пока нет в открытом доступе. Она была представлена как исследовательская работа в рамках Конференции по машинному зрению и распознаванию образов.
Разработчики отметили внушительный и быстрый прогресс в обучении, но не рассказали о возможном будущем нейросети. И тем не менее, можно предположить, что вскоре мы получим полноценный видеоаналог Midjourney.
Станьте первым, кто оставит комментарий