Kling AI — нейросеть для генерации видео по тексту, которую называют китайским аналогом Sora AI. Её запустили ещё в июне, но только 24 июля открыли доступ для пользователей не из Китая: ранее веб-версия требовала авторизации по локальному номеру телефона. Рассказываем, как использовать программу в России.
Как получить доступ к Kling AI
Здесь всё довольно прямолинейно: глобальная версия нейросети открывается из России. Единственная сложность, с которой можно столкнуться: на момент публикации эта версия ещё не начала адекватно индексироваться поисковиками, и по прямому запросу вам, скорей всего, выдадут китайский сайт (kling.kuaishou.com, Kuaishou — это компания-разработчик). На нём нет регистрации по почте, только по китайскому номеру. А вот как зарегистрироваться в англоязычной версии Kling AI.
- Зайдите на официальный глобальный сайт проекта.
- Нажмите на кнопку Sign In в верхнем правом углу. Чтобы зарегистрироваться, в открывшемся окне нажмите на Sign up for free.
- Введите адрес действующей почты (российские ящики подходят) и придумайте пароль.
- Подтвердите учётную запись кодом, который придёт на почту. Если его нет в папке «Входящие», проверьте спам.
Готово, у вас должна открыться главная страница.
Как пользоваться нейросетью
На самом деле в веб-версии предлагается сразу две нейросети от одного разработчика: Kling AI для генерации видео и Kolors AI для генерации картинок. Нас интересует первая. Для её запуска нужно кликнуть по плашке AI Videos на главной.
В открывшемся редакторе обращаем внимание на левую панель. На ней нужно выбрать режим генерации: по текстовому запросу (Text to Video) или на основе существующей картинки (Image to Video). Разберём оба варианта.
Генерация видео по тексту
В режиме Text to Video нужно заполнить четыре поля:
- Prompt — собственно текстовый запрос. Нужно указать, кто, что и как делает, в каком сеттинге и стиле. Например, «рыжий кот медленно потягивается на залитом солнцем подоконнике» или «девушка в красном платье идёт по дождливой улице чёрно-белого города». Уровень детализации запроса зависит от того, насколько чёткая картинка у вас в голове и какие моменты вы готовы отдать на откуп ИИ. Промпт можно ввести на русском, но есть стойкое ощущение, что соответствие запросам на английском выше.
- Setting — настройки. Ползунок Creativity/Relevance отвечает за релевантность промпту (левее — нейросеть сможет больше додумывать, делая результат более непредсказуемым; правее — приоритет соответствию даже в ущерб адекватности), Frame Ratio — за соотношение сторон готового видео. Параметры Mode и Length настроить пока нельзя: в обоих полях доступно только одно значение (длина 5 секунд, приоритет скорости генерации, а не качеству).
- Camera Movement — настройка движения камеры. Можно выбрать простые эффекты вроде горизонтального или вертикального перемещения, наклона или приближения. Интенсивность эффектов настраивается. Если ничего не выбирать, нейросеть сама определит лучший вариант для конкретного запроса.
- Negative Prompt — в этом поле можно перечислить всё, что вы не хотите видеть в ролике: например, блюр, искажения, мультяшный стиль или животных. Заполнять не обязательно.
После ввода промпта появится стоимость генерации в кредитах — местной валюте, которая привязывается к аккаунту. На сайте указано, что стоимость зависит от разных параметров, но по факту каждый раз просят 10 кредитов: за день можно сделать шесть роликов по 5 секунд каждый.
Кредиты списываются в момент нажатия кнопки Generate, ролик создаётся за 3–10 минут в зависимости от нагрузки на сервер. В это время можно закрыть страницу или заняться следующим запросом: генерация продолжится, а по завершении результат появится в разделе My Assets на главной.
Когда всё будет готово, ролик окажется прямо в редакторе. Вариантов ваших действий немного: можно только оценить, понравился вам результат или нет, и скачать видео на устройство. В будущем должна появиться опция продления видео ещё на 5 секунд, но пока что кнопка неактивна.
Генерация видео по картинке
В этом режиме, что логично, добавляется окно для загрузки изображения. Картинка будет использоваться как первый кадр видео, действия можно контролировать окном Prompt, как и при генерации по тексту. Ввод запроса опциональный: можно ограничиться только картинкой, в таком случае нейросеть придумает действие сама.
Поля настроек те же, что в Text to Video, но заблокированы опции выбора соотношения сторон (оно зависит от картинки) и движения камеры.
Какие получаются видео
На руки в движении смотреть страшно, а вот реалистичность мимики (причём как людей, так и животных) и единообразность лиц в течение ролика приятно удивляют на фоне доступных аналогов: те же Runway, Genmo и Pika способны хорошо сделать максимум idle-анимацию, а при более динамичных движениях перерисовывают объект в каждом промежуточном кадре и забывают про портретное сходство.
Промпт: a ginger cat slowly stretches on a sunlit windowsill.
Промпт: man and woman dancing in the rain, 80s movie style, cinematic, hyperrealistic, dutch angle.
Да, это очевидно не идеально и черты лица меняются при повороте головы, но на современном уровне развития ИИ для генерации видео это отличный результат.
При работе с картинкой-исходником сходство тоже сохраняется, благодаря чему нейросеть можно использовать для оживления мемов.
Генерация по кадру из фильма, добавлен запрос «девочка застенчиво улыбается».
Оживление картинки без текстового запроса.
До демонстрации нейросети Sora от OpenAI эти видео немного недотягивают по качеству и цельности, но нельзя сказать, что они совсем в разных лигах: в некоторых случаях Kling мало в чём уступает американскому брату. Я протестировала Kling AI с теми же промптами, что указаны для примеров работы Sora (настройки OpenAI не приводит, так что я везде использовала стандартные). Работы Kling AI подписаны, Sora AI — без водяного знака.
Промпт: A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.
Промпт: A litter of golden retriever puppies playing in the snow. Their heads pop out of the snow, covered in.
Честно признаюсь: Kling иногда грешит с генерацией стартового кадра, так что получаются такие вот химеры. Но это редкие глюки: со второй попытки тот же промпт выдал хороший результат.
Тут есть два нюанса. Во-первых, Sora пока в очень ограниченном доступе и все доступные видео предоставлены либо самой OpenAI, либо избранным кругом авторов, у которых наверняка есть лимиты на публикацию сгенерированных роликов. Во-вторых, Kling пока что можно опробовать только в бесплатной урезанной версии, так что варианты из примеров не отражают её максимальных возможностей. Тот же режим с приоритетом качества недоступен — но даже без него Kling генерирует неплохой реализм.
Сколько это стоит
Разработчики пошли по условно бесплатной модели использования. После регистрации вам будут ежедневно давать 66 кредитов генерации — здесь их называют Inspiration Credits. Они расходуются каждый раз, когда вы создаёте картинку или видео, но возвращаются в случае ошибки генерации.
Бесплатными кредитами нельзя оплатить часть функций сервиса: генерацию без водяного знака, создание роликов в высоком разрешении, продление видео и продвинутые настройки движения камеры.
Англоязычная версия сервиса на момент написания этого текста только запустилась, и никакой монетизации ещё нет. На сайте указано, что подписки в разработке, но деталей о расценках и о возможности оплаты российскими картами пока нет. Получается, что пользователи сейчас могут тратить только бесплатные кредиты и не имеют доступа к премиальным функциям.
Что в итоге
Kling AI показывает отличные результаты для современной нейросети для генерации видео. Она лучше сохраняет портретное сходство в движении по сравнению с общедоступными моделями, меньше боится динамики и не пытается из любого промпта делать idle-анимацию или параллакс. При генерации без картинки-исходника качество получается достаточно реалистичным.
При этом программа очевидно уступает демо Sora AI по детализации и фотореалистичности — что вполне может исправить внедрение платной версии с режимом приоритета качества.
Как и другие подобные нейронки, Kling AI сейчас можно использовать для развлечения или небольших учебных проектов, но снять с её помощью настоящий фильм или клип вряд ли получится — хотя бы из-за невозможности закрепить сид и генерировать кусочки дольше 5 секунд.