Как пользоваться нейросетью Flux.1 AI, которая бесплатно генерирует картинки с текстом

Она только появилась, но уже доступна в десятках сервисов.

Что за Flux.1 AI 

Это относительно новая нейросеть для генерации картинок от Black Forest Labs — команды разработчиков, которые ранее участвовали в создании моделей Stable Diffusion, включая SD XL и SD Video. Они представили линейку моделей Flux.1 в начале августа 2024 года. В серию входят:

⚡️Новости из мира гаджетов, обзоры, гайды и не только — в телеграм-канале «Технологии | Лайфхакер».

  • Flux.1 [pro] — топовая версия, доступна только через API. Предлагает самое точное следование промпту, высокое качество и детализацию.
  • Flux.1 [dev] — немного «обезжиренная» версия [pro] для некоммерческого использования (речь про саму модель, а не созданные с её помощью картинки). Предлагает схожие с [pro] качество и соответствие промпту.
  • Flux.1 [schnell] — вариант с приоритетом скорости генерации. Оптимальна для персонального использования, но нужно мириться с компромиссами в качестве по сравнению с другими версиями модели.

Примечательно, что любую версию можно попробовать как на своём компьютере, так и онлайн.

Почему эта модель так популярна

Главная причина очевидна: Flux.1 AI бесплатна. Также она доступна во множестве сервисов, которые позволяют опробовать нейросеть пользователям без особого опыта и мощного компьютера. Наконец, состав команды из бывших разработчиков Stable Diffusion тоже прибавляет авторитет.

Конечно, всё это было бы бесполезно без адекватного продукта. Тут всё хорошо: возможности Flux и качество генерации уже в первой версии намного превосходят первые версии Stable Diffusion.

Модель умеет создавать неплохой реализм, хотя до сходства с фотографиями пока не доходит, обычно хорошо справляется с анатомией, точно следует запросу и может внедрять текст в изображения. Также нейросеть не игнорирует запросы на насилие: у неё более спокойная цензура, чем у большинства других генераторов.

Напрашивается сравнение с Ideogram 2.0, которая тоже не отказывается показывать кровь и синяки. Но какие-то ограничения во Flux всё же присутствуют: например, заставить её изобразить настоящих людей у меня не получилось. На запрос показать бой Илона Маска с Марком Цукербергом в Колизее нейросеть выдала двух рандомных белых мужчин, попытки поиграть с настройками соответствия промпту не помогли.

Промпт: a photo of Elon Musk and Mark Zuckerberg fighting in Colosseum, both bruised and with blood

На изображении выше видно, что кровь очень неестественная. Я пробовала сгенерировать более настоящую с разными промптами, но ничего совсем реалистичного создать так и не вышло. Вот самый жуткий результат:

Промпт: rotting zombie with open wounds, hyperrealistic

Да, довольно пугающе, но и близко не тот уровень дискомфорта, который предполагает запрос. Крипово, скорее, всё, кроме крови. Вероятно, в сервисах заранее прописаны негативные промпты, которые отбивают всё по-настоящему уродливое и гротескное.

При описании Flux часто делают акцент на качественном включении текста в картинки, при этом немного читерят. В обзорах и туториалах её просят просто включить в картинку табличку с какой-то надписью. С этим действительно всё хорошо: достаточно прописать в промпте sign with [текст в кавычках] written on it, и нейросеть подчинится. Единственный нюанс: текст должен быть на английском языке.

Промпт: a man sitting in cafe terrace. he is drinking steaming coffee from a cup and reading magazine. there is a sign on the table with "lifehacker.ru" written on it

Учитывайте, что если кадр требует наличия ещё какого-то текста, например того же журнала из запроса выше, он будет типичной нейросетевой неразберихой.

Да и с вписыванием заданного текста в окружение всё сложнее и печальнее: что-то вменяемое можно получить примерно в одном случае из пяти, в остальных — буквы теряются или смазываются в неразбериху. Ниже — относительно удачный пример, но слишком пристально в надпись всё равно лучше не вглядываться.

А ещё нейросеть так увлеклась вписыванием текста, что забыла проверить количество пальцев у мужчины. Это не очень частое явление, но местами проскальзывает.

Промпт: a man sitting in cafe terrace. he is drinking steaming coffee from a cup and reading a magazine. the magazine has "lifehacker.ru" written on its cover

Если вам не подойдёт вариант с табличкой, доработать или просто добавить текст в «Фотошопе» намного быстрее, чем пытаться заставить нейросеть сделать хорошо.

Где можно найти Flux.1 AI

Если у вас не очень мощный компьютер или просто Mac либо вы не хотите разбираться с настройками и полноценным промптингом, есть смысл обратиться к сторонним сервисам, на которых представлена модель. Они упрощают работу, предлагая понятный интерфейс, в котором можно разобраться за несколько минут.

Все представленные сайты работают по одному принципу: пользователь вводит промпт и настройки в интерфейсе, затем данные передаются на удалённый мощный компьютер и им же обрабатываются. После этого результат появляется на экране пользователя.

Совсем бесплатно выделять мощности никто не будет, так что у всех сервисов есть свои варианты монетизации. Где-то без подписки можно генерировать только определённое число картинок в день, где-то и вовсе бесплатен только небольшой пробный период, а дальше всё за деньги.

Официальной веб-версии Flux пока не существует.

Все сервисы с Flux в названии официальными не являются. Напрямую связанные с Black Forest Labs сайты перечислены на сайте разработчиков, но это тоже сторонние компании, а не внутренние проекты. Ниже расскажем о самых удобных вариантах.

Hugging Face

  • Сайт: huggingface.co.
  • Приложение: нет.
  • Версии модели: Flux.1 [schnell] и Flux.1 [dev].
  • Возможности: генерация по текстовому промпту.
  • Условия: без регистрации можно создать 2–3 картинки, с бесплатным аккаунтом — около 10 в день, количество зависит от настроек. Pro-подписка стоит 9 долларов в месяц, она даёт больше генераций и приоритетную скорость обработки.

Hugging Face — это такой полигон для моделей, на котором доступны тысячи нейросетей. Обычно доступ к ним дают либо сами разработчики, либо энтузиасты, которые готовы делиться вычислительной мощностью с желающими.

На площадке можно выбрать модель: [schnell] или [dev]. Первый вариант позволяет получить результат быстрее, но со вторым — качество изображений будет выше. Можно попробовать оба, чтобы понять, какая опция больше устраивает.

Интерфейс генератора простой, настройки тоже. Помимо ввода промпта можно выбрать Seed — число, которое привязывается к генерации и позволяет создавать новые картинки в похожем стиле, высоту и ширину изображения, а также число проходов — Number of inference steps. У модели [dev] ещё есть настройки степени соответствия результата промпту — Guidance Scale: чем выше параметр, тем меньше самодеятельности нейросети.

Mystic

  • Сайт: mystic.ai.
  • Приложение: нет.
  • Версии модели: Flux.1 [schnell], Flux.1 [dev] и Flux.1 [pro].
  • Возможности: генерация по текстовому промпту.
  • Условия: нужна регистрация через почту или Google-аккаунт, бесплатно можно создать пару картинок, дальше — только с вводом карты и ежемесячным списанием за сгенерированные картинки.

По сути, Mystic — это что-то вроде премиального аналога Hugging Face с возможностью командной работы. На площадке тоже дают тестировать модели, но бесплатно можно сделать очень мало. Зато есть возможность попробовать версию [pro], в других сервисах она скрывается за страницей оплаты. Mystic, правда, тоже попросит ввести данные карты, но как минимум одну картинку сгенерировать перед этим удастся.

С версиями [dev] и [schnell] поэкспериментировать получится чуть подольше, но когда долг превысит 0,2 доллара — посмотреть информацию об этом можно в профиле, — выбор способа оплаты будет обязательным.

Настройки в Mystic стандартные: размеры картинки, количество проходов, соответствие промпту, Seed. Выделяется разве что блок Output: если ввести неправильные настройки, которые нейросеть не может обработать, в нём отобразится причина. Часто это неправильные размеры: и высота, и ширина должны быть кратными 32 — в других сервисах тоже, но это так чётко не указывается.

CivitAI

  • Сайт: civitai.com.
  • Приложение: нет.
  • Версии модели: бесплатно — Flux.1 [dev], платно — Flux.1 [schnell] и [pro].
  • Возможности: генерация по текстовому промпту, копирование настроек из генераций пользователей
  • Условия: бесплатно можно сгенерировать около четырёх картинок, дальше нужно фармить или покупать внутреннюю валюту.

Создатели CivitAI переименовали модели Flux в соответствии с тем, что «лучше соответствует их целям». [schnell] превратилась в Draft, а [dev]— в Standard. [pro] трогать не стали. Одна из настроек тоже прошла смену имиджа: соответствие промпту здесь называется CFG Scale. Помимо этой опции есть стандартные Seed и количество проходов.

В CivitAI примечательно наличие чего-то вроде соцсети: на главной можно листать последние генерации других пользователей, подсматривать промпты с настройками и даже копировать Seed. Это одновременно и идеи для вдохновения, и демонстрации того, что может и для чего используется другими Flux. Можно даже нажать кнопку Remix, чтобы скопировать все параметры в редактор и модифицировать под свой запрос.

Если вы опубликовали сгенерированную картинку и она кому-то понравилась, пользователь может оставить чаевые в виде внутренней валюты: она расходуется при генерации.

Flux AI Image Generator

  • Сайт: flux1.ai.
  • Приложение: нет.
  • Версия модели: не уточняется, но, скорее всего, Flux.1 [schnell].
  • Возможности: генерация по текстовому промпту.
  • Условия: 10 картинок бесплатно, лимит не восполняется. Дальше нужна подписка — самый дешёвый вариант за 11,9 долларов в месяц позволяет сгенерировать 200 картинок.

Это как раз один из тех сайтов, которые используют название нейросети, хотя с разработчиками никак не связаны. Представляет собой максимально простой генератор, который выдаёт по одной картинке за раз, из настроек доступно только соотношение сторон.

Krea AI

  • Сайт: krea.ai.
  • Приложение: нет.
  • Версия модели: не уточняется, но, скорее всего, Flux.1 [schnell].
  • Возможности: генерация по текстовому промпту, визуальный редактор композиции, апскейл.
  • Условия: 3 минуты генерации бесплатно — это примерно 20 картинок в обычном редакторе или около 900 в визуальном, дальше только с платной подпиской стоимостью до 10 долларов в месяц.

«Комбайн» из нейросетей в одном сервисе, о котором мы уже рассказывали в отдельном обзоре. За генерацию картинок здесь отвечает как раз Flux. Сервис предлагает стандартный редактор с выбором текстового промпта и стиля, а ещё есть особый редактор Realtime. В нём любые изменения промпта мгновенно отражаются на результате, а на композицию можно влиять с помощью набросков.

Grok-2

  • Сайт: x.com.
  • Приложения: iOS, Android.
  • Версия модели: не уточняется, но, скорее всего, Flux.1 [schnell].
  • Возможности: генерация по текстовому запросу на естественном языке.
  • Условия: нужна подписка X Premium или Premium+ стоимостью от 8 долларов в месяц.

Grok — это чат-бот, доступ к которому входит в подписки X Premium и X Premium+ в бывшем Twitter. Он умеет генерировать картинки и для обработки запросов полагается как раз на модели Flux.

Главный плюс этого варианта в том, что пользователю вообще не нужно уметь писать промпты: достаточно рассказать ИИ-ассистенту, что хочется получить. Если результат не понравится, правки можно дать тоже обычным текстом. Из минусов — бот присылает только одну картинку, а не пачку из четырёх.

Как писать промпты для Flux

Советы для Midjourney, Stable Diffusion и прочих генераторов картинок помогут улучшить выдачу и во Flux.

Для лучших результатов постарайтесь прописать:

  • Стиль — можно задать прямо в начале промпта: «фотография» (a photo of...), «картина маслом» (an oil painting of...) и так далее. Некоторые стили удобнее описывать в конце, используя связку in [стиль] style. Например, «в стиле мультиков 90-х» — in 90s cartoon style.
  • Объект — настолько подробно, насколько это важно для результата. Если детали не важны, описывайте максимально просто: «девушка», «старик», «котёнок», «стул» (young woman, old man, kitten, chair). Сложные описание тоже подходят: например, «рыжая женщина старше 40 с заплетёнными в косы волосами, с ярким макияжем и в чёрной кожаной куртке» (redhead woman in her 40s with french braids, bright makeup and black leather jacket).
  • Действие — что делает объект. Лежит, бежит, вяжет крестиком и так далее (laying down, running, cross-stitching).
  • Окружение — что в кадре помимо объекта. Можно описывать всё детально до последнего предмета или просто задать общий стиль или настроение: например, «простой современный фон» (simple modern background) или «неоновый дождливый город» (rainy neon cityscape).
  • Освещение — параметр помогает бороться с любовью нейросетей к идеальному студийному свету и позволяет лучше передать настроение. Например, «естественный свет» (natural lighting), «драматичное освещение» (dramatic lighting), «мрачное освещение» (gloomy lighting), «лунный свет» (moonlight), «золотой час» (golden hour).
  • Положение камеры — помогает получить нужный результат и создать правильное настроение. Например, «с высоты птичьего полёта» (bird’s eye view), «вид снизу» (low angle), «крупный план» (close-up), «общий план» (long shot), «голландский угол» (Dutch angle).

Учтите, что Flux не очень понимает, как выглядят стили даже очень известных художников и режиссёров, и редко справляется с запросами вроде «нарисуй котят в стиле Альфонса Мухи». Если нужно имитировать конкретный художественный стиль и вы не можете применить его с помощью пресета в сервисе, можно погуглить описание этого стиля и добавить в промпт.

Дополнительно упростить жизнь помогут генераторы промптов:

  • flux1.ai — расписывает промпт и добавляет детали, для работы нужно войти на сайт через почту или Google-аккаунт.
  • Hugging Face — «комбайн» предлагает выбрать в выпадающем меню все подробности о картинке, включая объект, стиль, композицию и так далее. Можно даже найти подробное описание одежды и волос из сотен предложенных вариантов. Работает без авторизации, но из-за высокой нагрузки не всегда доступен.

Впечатления и итоги

У Flux есть свои сильные и слабые стороны, при этом как-то особенно преуспела она разве что во внедрении текста — и то в виде табличек. Главный потенциал нейросети кроется в локальном доступе и обучении LoRA-моделей, но для этого нужно быть ИИ-энтузиастом, а не простым пользователем, который привык взаимодействовать с нейронками через веб-интерфейс.

Собрали плюсы и минусы модели Flux в табличке:

ПлюсыМинусы
Много сервисов с бесплатным доступом.Нет адекватного официального сервиса с интерфейсом.
Результаты генерации бесплатны для коммерческого использования.Модели для установки слишком требовательны к ресурсам ПК.
Умеет внедрять надписи. Правда, только на английском.Плохо имитирует даже очень известные стили.
Редко грешит лишними пальцами и конечностями.Текст плохо вписывается в окружение, хорошо получаются только таблички.

В последнее время появляется всё больше конкурентов Stable Diffusion и Midjourney. А каким сервисом для генерации изображений пользуетесь вы?

Это упрощённая версия страницы.

Читать полную версию
Обложка: Лайфхакер
Если нашли ошибку, выделите текст и нажмите Ctrl + Enter