Dream Machine от Luma: как пользоваться нейросетью для оживления фото и создания крутых видео

Новый инструмент для самых смелых творческих экспериментов.

1

Что такое Dream Machine и что она умеет

Dream Machine — это генеративная нейросеть от стартапа Luma, которая предназначена для создания по текстовым инструкциям и фото реалистичных или фэнтезийных видео высокого качества. Она имеет мультимодальную архитектуру и специально обучена на видеороликах.

⚡️Новости из мира гаджетов, обзоры, гайды и не только — в телеграм-канале «Технологии | Лайфхакер».

Dream Machine работает по сценариям photo to video и text to video, позволяя оживлять статичные изображения, генерировать видео по ключевым кадрам или создавать их с нуля по описанию. Нейросеть даёт возможность изменять эмоции, добавлять в сцену действие, указывать перемещение камеры. На выходе получаются пятисекундные ролики, которые генерируются всего за пару минут.

Как пользоваться Dream Machine

Для работы с сервисом понадобится аккаунт, который можно завести бесплатно. Для этого перейдите на главную страницу, кликните Try Now, а затем Sign in with Google и войдите в свою учётную запись. Интерфейс и взаимодействие с Dream Machine — на английском языке, но сложных технических нюансов здесь нет, поэтому разобраться будет легко. В составлении промптов в крайнем случае поможет переводчик или специальные инструменты.

Все варианты генерации осуществляются через единый интерфейс. Это строка для ввода промпта с кнопкой загрузки изображений и счётчиком оставшихся токенов (1 токен = 1 видео). Каких-либо дополнительных разделов в Dream Machine нет, поэтому созданные креативы отображаются здесь же, чуть ниже.

Как создать видео по текстовому промпту

Чтобы нейросеть сгенерировала ролик по текстовым инструкциям, просто опишите желаемую сцену: перечислите, кто находится в кадре, где происходит действие и что меняется по ходу видео. Кликните по кнопке со стрелкой или просто нажмите Enter и ждите. Готовый креатив появится через пару-тройку минут на этой же странице, где его можно будет оценить и скачать.

Разработчики рекомендуют использовать опцию улучшения промпта (Enhance prompt), которая включена по умолчанию. В этом случае достаточно краткие формулировки в одно предложение нейросеть автоматически расширит. Слишком подробные запросы из трёх-четырёх предложений часто воспринимаются некорректно, так что иногда полезно отключить помощь и попробовать свой детализированный промпт. Когда результат не очень, есть смысл сделать ещё одну попытку по тому же запросу, часто она выходит удачнее.

Как создать видео из фото

Данный режим хорош, когда нужно ограничить полёт фантазии нейросети, чтобы она создавала сцену не с чистого листа, а из какой-то отправной точки. Для этого кликните по кнопке с фото или просто перетащите любое изображение в строку промпта. Далее введите инструкции для Dream Machine и нажмите Enter.

Для наилучшего результата в промпте желательно описать, что находится на картинке, а затем уже развитие сюжета и какие изменения вы хотите получить. Лучше всего использовать исходники с соотношением сторон 16 : 9, поскольку именно на таких обучали модель. Как и в предыдущем случае, опцию Enhance prompt можно отключать, если выходит не очень. 

Как создать видео по ключевым кадрам

Dream Machine умеет делать морфинг, преобразовывая одно изображение в другое и дорисовывая промежуточные кадры согласно заданным условиям. Для этого во время ввода промпта добавьте первую картинку, а затем вторую. Всё так же жмите Enter и ждите окончания генерации.

В теории так можно создавать крутые ролики, объединяя в одном сюжете героев разных мемов или добавляя неожиданные продолжения знакомых сцен. Результат во многом зависит от того насколько сильно отличаются изображения от вашего промпта. Повторные попытки, как правило, повышают шансы на успех.

Как расширить видео

По умолчанию Dream Machine генерирует 120 кадров анимации, то есть пятисекундный ролик с частотой 24 к/с. При желании любое созданное видео можно продлить, увеличив его длительность ещё на 5 секунд, это стоит 1 токен. Для расширения найдите нужный ролик и кликните кнопку Extend под ним. Введите тот же запрос, чтобы продолжить происходящее в кадре действие, или дайте новые инструкции с указанием, что нужно изменить. Запустите генерацию, нажав клавишу Enter.

В данном режиме нейросеть бесшовно продолжает ролик, сохраняя сцену и действующих персонажей — при условии, что в новом промпте не было явных инструкций на другие изменения и детали. Увеличение длительности поможет достичь более плавных переходов и повысить общее качество видео.

Какие получаются видеоролики

Конечно, в промоматериалах разработчики добавили самые крутые ролики. Возможно, подобных можно достичь, если тщательнее подбирать промпты и делать по несколько итераций, но результаты моих тестов вышли куда скромнее (но они не менее забавны).

Промпт: a very fat middle-aged man in tight shorts and no shirt emotionally plays the electric guitar while standing on a surfboard in the ocean, the camera moves dramatically to show how a huge wave rolls over him, the water goes away and he calmly continues to play

Первая попытка вышла не совсем удачной, вернее, нейросеть меня не до конца поняла. Полный мужчина средних лет, стоящий на доске для сёрфинга, получился убедительным, но никакой гитары, как я просил, у него в руках не оказалось. Вероятно, промпт был слишком подробный.

Промпт: a very fat middle-aged man emotionally plays the electric guitar while standing on a surfboard in the ocean, the camera moves dramatically

После того, как я сократил запрос, из океанских волн вышл сёрфер-гитарист, который выглядел как Джек Блэк с натянутыми поверх текстурами Джеймса Хэтфилда. Засчитано.

Фотореалистичная генерация по текстовому промпту — на среднем уровне. Условие «босиком» проигнорировано, есть огрехи с ногами и гримасой на лице в конце. Не считая этого — вполне неплохо.

Ещё одна итерация по тому же самому запросу. Кадр выглядит интереснее, но тоже есть гримаса и неестественная походка модели.

Пейзажи по текстовому запросу даются нейросети куда лучше. Сделала всё как попросил.

Попробуем промпт из стандартной подсказки. Пролёт дрона через замок. Я предполагал, что он будет более проработанным, так как Dream Machine сама предлагает его. Но нет, довольно средний, хотя и неплохой результат.

Ещё один демопромпт с танцующим и играющим на гитаре медведем в очках. Не обошлось без артефактов на персонаже, но в целом сцена выглядит нормально.

Это попытка оживить старую фотокарточку моих бабушки с дедушкой. Сходства ожидаемо нет — на видео другие люди, но нейросеть почему-то сделала их старше, хотя в промпте указано, что они молодые. Однако как пример анимации, да ещё и по заданным параметрам, вышло очень даже неплохо.

Возьмём более качественный снимок, сгенерированный в Midjourney. Анимация неплохая, облёт камеры соответствует указаниям, но вместо подмигивания какое-то кривляние.

С более мультяшными персонажами нейросеть справляется явно лучше. Так могла бы выглядеть анимированная обложка к статье об осуждении окружающих.

Генерация окружения по фото получается вполне прилично. Придраться можно к застывшей сосульке, но, возможно, она пропала бы при следующей попытке.

Пример создания ролика по ключевым кадрам: заглядывающих в багажник Винсента и Джулса на первом и урожая кабачков на втором. Будь изображения не столь разнородными, результат, скорее всего, был бы лучше. Хотя это не объясняет, почему Сэмюэл Л. Джексон вдруг превращается в Кевина Спейси.

Так выглядит увеличение длительности ролика. Я попросил добавить на видео с сосулькой прилетающую птичку, которая начинает пить воду. На первый взгляд нейросеть проигнорировала просьбу, однако если присмотреться, то окажется, что птица всё же есть в кадре, но она не пьёт, а купается.

Как видите, несмотря на все огрехи, Dream Machine довольно интересна в качестве инструмента для творчества и открывает неплохие возможности. При этом порог входа минимальный — никаких специальных навыков и знаний не требуется.

Сколько стоит использование Dream Machine

Dream Machine можно пользоваться бесплатно, но для серьёзной работы, как и всегда в таких случаях, без подписки не обойтись. Всего есть четыре тарифа.

  • Бесплатный активируется после регистрации. В него включено 30 генераций в месяц. К видео добавляется водяной знак Luma, а использовать их в коммерческих целях нельзя.
  • В тарифе Standard за 29 долларов в месяц (24 при оплате за год) уже 150 генераций, нет логотипа и есть права на коммерческое использование. Обработка будет с высоким приоритетом, ждать придётся меньше.
  • В Pro за 100 долларов в месяц (80 при оплате на год вперёд) будет всё то же, что и в Standard, но генераций уже 430, а приоритет обработки — наивысший.
  • Самый дорогой Premier за 500 долларов в месяц (400 при платеже за год) предлагает ещё больше генераций — 2 030 и тоже наивысший приоритет в очереди.

Оплата с карт российских банков не принимается, поэтому если захочется купить подписку, то придётся просить знакомых за рубежом или прибегать к услугам посредников.

Это упрощённая версия страницы.

Читать полную версию
Обложка: Лайфхакер
Если нашли ошибку, выделите текст и нажмите Ctrl + Enter
Виктор Подволоцкий
25.07.24 00:00
Как же быстро мы перешли к видео. А ещё недавно писали про условный Paint, который позволяет превращать мазню в пейзажи (очень убогие пейзажи).