Как генерировать очень реалистичные картинки с нейросетью Ideogram 2.0

Она умеет представлять знаменитостей в необычных сценариях. Хорошо это или плохо — вопрос открытый.

Что за Ideogram

Ideogram — это нейросеть, которая генерирует картинки по текстовому описанию: как Midjourney или Stable Diffusion. В свою очередь, Ideogram 2.0 — это вторая версия модели, на момент выхода этого материала самая новая. Именно она по умолчанию обрабатывает запросы пользователя в сервисе, но переключиться на предыдущую тоже можно.

⚡️Новости из мира гаджетов, обзоры, гайды и не только — в телеграм-канале «Технологии | Лайфхакер».

Аналогия названия с запрещённой в России соцсетью неспроста: у каждого пользователя сервиса есть публичный профиль и возможность взаимодействовать с контентом других авторов. До комментариев и сообщений в Директ дело не доходит, но об этом позднее.

Что умеет Ideogram 2.0

Нейросеть способна генерировать картинки по текстовому описанию — пачками по 4 изображения за раз — и дорабатывать их в ИИ-редакторе: дорисовывать объекты или убирать их, не меняя картинку целиком. Правда, этот редактор доступен только по подписке.

Главная фишка Ideogram — возможность внедрять внятный текст, в том числе в конкретных цветах и шрифтах. Он интегрируется в картинку по цвету и форме, сохраняя читаемость. Благодаря этому дизайнить продукты можно полностью в Ideogram без доработки в Photoshop и других графических редакторах.

Энтузиасты ИИ называют Ideogram 2.0 лучшим, что случалось с генеративными нейросетями со времён Midjourney. В этой версии прокачали фотореализм и соответствие запросу, так что картинки на выходе получаются действительно похожими на реальные снимки. 

Также в обновлении добавили ряд новых функций вроде создания кастомной цветовой палитры и более точной настройки типа и стиля изображения, но доступны они только по подписке.

Как использовать Ideogram

Рассказываем по шагам, как творить красоту.

Регистрация

Никакие ограничения обходить не нужно: официальный сайт открывается в России, для авторизации используется аккаунт Google или Apple.

После входа в учётную запись нужно ввести имя и придумать никнейм: как мы уже упоминали, элемент соцсети здесь присутствует, так что будьте готовы, что ваш аккаунт станет публичным. Если не планируете платить за подписку, это означает, что все созданные вами картинки сможет увидеть кто-то другой.

Создание изображений

Генерировать картинки можно сразу после регистрации: достаточно нажать на строку слева от кнопки Generate.

Клик откроет поле для ввода промпта и меню настроек.

Интерфейс простой: слева нужно ввести описание, справа — поменять настройки, снизу — выбрать стиль.

В отношении промпта актуальны рекомендации для Stable Diffusion и других генеративных нейронок: расписывать задачу лучше максимально детализированно, можно добавлять фразы-улучшайзеры вроде 4K, photorealistic и high quality.

Ещё есть дополнительные настройки, доступные для бесплатных аккаунтов:

  • Magic Prompt — автоматическое улучшение запроса: нейросеть дописывает его, добавляя детали и все улучшения, а при необходимости ещё и переводит с любого языка на английский.
  • Aspect ratio — соотношение сторон картинки. Доступны 10 фиксированных вариантов, настроить свои опции не получится.
  • Model — версия модели: 2.0, 1.0 или 0.2. Новейшая версия справляется лучше всего, но одна генерация стоит 2 кредита, тогда как предыдущие — по 1 кредиту.
  • Color palette — цветовая палитра. Можно выбрать что-то из предложенных вариантов или нажать Auto, если нет особенных предпочтений. Свою палитру собрать нельзя.

Подписка на Ideogram 2.0 открывает доступ к дополнительным настройкам:

  • Ideogram Editor — ИИ-редактор, позволяющий дорабатывать картинки.
  • Image upload — загрузка изображений с компьютера, их можно использовать как основу для ИИ-обработки или как референс при генерации.
  • Visibility — сделать ли картинку общедоступной или приватной.
  • Rendering — количество проходов. Можно отдавать приоритет качеству или скорости генерации.
  • Seed number — возможность использовать цепочку чисел, чтобы создавать несколько изображений в одном стиле.
  • Negative prompt — моменты, которых нейросети стоит избегать при генерации. Обычно в этом пункте указывают опции вроде «уродливый» и «деформированный», но также можно добавить любые объекты и параметры, которые хочется исключить.

После ввода всех нужных настроек нажмите Generate и подождите. Обычно на генерацию с бесплатного аккаунта уходит около минуты, результаты будут доступны во вкладке My Images. Пока не завершится генерация предыдущей пачки, новую запустить не получится.

Добавление текста

Если вам нужно добавить на изображение какую-то надпись, включайте её в промпт. При необходимости пропишите также требования к шрифту и цвету. Кириллицу использовать можно, но в таком случае стоит отключить Magic Prompt и прописать запрос сразу на английском, иначе нейросеть переведёт надпись вместе с остальным текстом.

Учитывайте, что, если нейросеть посчитает, что помимо предложенной вами надписи в кадре должен быть ещё какой-то текст, результат будет не столь вменяемым.

Чтобы текст был читаемым, все надписи нужно включить в промпт. В противном случае получится типичная нейросетевая мешанина. Просто просить сделать текст на английском или включить в изображение цифры — недостаточно.

Изображение: nickhoh / Reddit, Ideogram 2.0

С текстом такая логика: пока есть конкретная надпись, которую нужно добавить в окружение, и оно не предусматривает дополнительного текста — всё отлично, и надпись встраивается реалистично. Но как только нейросеть решает, что можно добавить отсебятины, получается немногим лучше, чем в другой похожей нейронке.

Где искать вдохновение

Ideogram — это нейронка и соцсеть в одной упаковке. Все сгенерированные пользователем картинки автоматически сохраняются в профиле автора, а также идут на главную. Скорее всего, они проходят какой-то отбор, но механики не уточняются.

Главную страницу интересно листать в поисках чего-то похожего на то, что хотите сделать вы: клик по изображению открывает использованный автором промпт. Его можно скопировать и использовать для генерации картинок в похожем стиле, но с другим объектом или окружением. Или просто посмотрите, как другие авторы пишут промпты, и попробуйте похожие методы.

На любого автора можно подписаться, чтобы следить за его работами или просто полистать профиль в поисках других крутых картинок. Помимо промпта для каждого изображения публикуются использованные настройки и даже Seed — но в бесплатной версии использовать его не получится.

Чужие картинки можно лайкать, скачивать или использовать как основу для новых генераций. Комментариев и каких-либо способов связи с авторами не предусмотрено, но пользователи могут добавить описание собственного профиля и прикрепить ссылки на свои соцсети.

Какие получаются картинки: сравнение Ideogram и Adobe Firefly

Главным тестом качества современных нейросетей считаются изображения людей, которые выглядят как фотографии, а не нарисованные или перефотошопленные картинки. С этим у Ideogram 2.0 всё отлично: если выбирать стиль Realistic, нейронку могут выдать разве что странные сценарии или подозрительные детали, но редко — сами люди.

Промпт: A photo of a person sitting at a desk. The person has a confused expression, there are a lot of kittens on a desk. The background is a neutral, modern home or office setting with soft, natural lighting

Конечно, до фотореалистичности Adobe Firefly этот сервис не дотягивает: пока ни одна нейросеть не создаёт таких же убедительных людей. Для сравнения: вот изображения, сгенерированные по запросу: a photo of a woman in her 40s with a bright green mohawk («фото женщины в возрасте 40+ лет с ярко-зелёным ирокезом»):

Слева Adobe Firefly Image 3, справа — Ideogram 2.0

При увеличении картинок видно, что у генерации Ideogram рандомная текстура кожи наложена на идеально гладкую, просто чтобы придать подобие реалистичности. Тогда как Firefly лучше демонстрирует настоящую кожу с порами, морщинками и прочими несовершенствами. Картинка получается действительно объёмная и правдоподобная.

Слева Adobe Firefly Image 3, справа — Ideogram 2.0. Оба изображения в масштабе 400%

Также у Ideogram можно заметить проблемы с глазами: часто всё выглядит симпатично в отдалении, но если присмотреться — видно, как всё плохо.

Оба изображения сгенерированы в Ideogram 2.0, масштаб 800% (слева) и 400% (справа)

При этом существенное отличие Ideogram заключается в более свободном обращении с публичными личностями и известными франшизами. Вот что Firefly выдал на просьбу сгенерировать Джонни Деппа в образе профессора Дамблдора:

Из запроса удалили всё не соответствующее правилам сервиса, так что в итоге результат вообще никак не соотносится с исходным промптом

У Ideogram никакой моральной дилеммы не возникло, нейронка спокойно приняла запрос и даже дополнила его подходящим франшизе контекстом.

Для всех интересующихся приложим три лучшие генерации:

Разницу между упомянутыми нейросетями можно охарактеризовать примерно так: Firefly умеет создавать стоковые фото и реалистичные портреты несуществующих людей, у Ideogram выходят более прилизанные или отретушированные снимки, зато есть возможность генерировать известных людей в нетипичной для них обстановке.

С обновлением до 2.0 у Ideogram вырос уровень стилизации. Тот же тег «аниме» теперь не выдаёт типичный нейросетевой рендер, похожий на спрайт для очередной гача-игры, а действительно стилизует картинку под кадр из отрисованного вручную аниме.

Генерация аниме-картинки по одному запросу в Ideogram 1.0 (слева) и Ideogram 2.0 (справа). Изображение: WideRoof1159 / Reddit, Ideogram

Кому-то такое изменение может показаться даунгрейдом, потому что глаз уже привык к вылизанным картинкам, но тем, кому важно более точное соответствие промпту, это будет кстати. Если цель — именно типичное нейросетевое аниме, можно смело переключаться на Ideogram 1.0 и тратить вдвое меньше кредитов на генерации.

Сколько стоит Ideogram

Бесплатным пользователям Ideogram даёт 10 «медленных» кредитов: с ними можно сгенерировать 5–10 пачек по 4 картинки в день, но в периоды высокой нагрузки придётся дольше ждать своей очереди. Лимит восполняется ежедневно, но больше 10 кредитов на аккаунте не будет, даже если вчера вы не успели потратить всё. Докупать больше кредитов на бесплатном тарифе нельзя.

Расширить возможности позволяет платная подписка. Её цена стартует от 8 долларов в месяц за Basic и доходит до 60 долларов за подписку Pro. Любой тип подписки открывает доступ к дополнительным функциям, включая апскейл, фоторедактор и скачивание PNG в оригинальном разрешении. Ещё дают приоритетные кредиты: они нужны для  более быстрой генерации в обход очереди. «Медленные» кредиты тоже дают: от 100 в день на Basic до безлимита в Plus и Pro.

Общие впечатления от Ideogram 2.0

Ideogram 1.0 успел получить своих фанатов как мощный нейросетевой инструмент для дизайнеров. В версии 2.0 возможности сервиса расширили: теперь он может в фотореализм, причём почти на уровне Adobe Firefly, и хорошую интеграцию текста. 

В первую очередь сервис будет полезен дизайнерам и стартаперам, которым нужно быстро визуализировать свои разработки и создавать иллюстрации для Kickstarter, пока настоящего продукта ещё не существует. При таком использовании бесплатного тарифа будет недостаточно, но на то и расчёт.

Поразвлекаться с сервисом можно любому желающему, но с таким уровнем фотореализма возникает вполне разумное беспокойство о потенциале Ideogram 2.0 для создателей фейков: уж слишком охотно и без вопросов нейросеть генерирует изображения реальных людей.

Коллеги из PetaPixel убедились: Ideogram обрабатывает запросы, которые Midjourney отвергает. Масла в огонь подливает и более спокойная цензура: изображение крови и насилия Ideogram не пугает. Мы перепроверили: нейросеть действительно не против показать кровавый поединок между Маском и Цукербергом в Колизее, который вживую так и не состоялся.

Промпт: Elon Musk and Mark Zuckerberg fighting in Colosseum, both bruised and with blood

В итоге получается, что у Midjourney и DALL-E 3 появился хороший конкурент с бесплатным доступом, но довольно туманным будущим в мире, где маркировать ИИ-контент толком не научились. Есть подозрение, что скандалы и изменение модели — только вопрос времени.

Это упрощённая версия страницы.

Читать полную версию
Обложка: Ideogram / Лайфхакер
Если нашли ошибку, выделите текст и нажмите Ctrl + Enter