Как пользоваться нейросетью DALL-E 2, которая генерирует изображения
Что такое DALL‑E
DALL‑E — это нейросеть от компании OpenAI, которая генерирует картинки по текстовым запросам, а также умеет создавать вариации изображений, ориентируясь на предложенные пользователем примеры.
Инструмент разработан на основе модели GPT‑3, которая была дополнительно обучена создавать графически людей, животных, а также большое количество других предметов. Ещё сервис способен объединять не связанные между собой концепции для формирования новых идей.
Первую версию, DALL‑E, выпустили в 2021 году, а через год разработчики представили улучшенный вариант — DALL‑E 2, который поддерживает более высокое качество изображений и расширенные возможности по преобразованию готовых картинок.
Система определяет запросы на сотне языков, в том числе на русском. Но основным языком для эффективных команд является английский. Сначала нейросеть распознаёт введённый пользователем текст и генерирует по нему простой набросок. Далее преобразует его в финальный вариант небольшого разрешения и затем масштабирует, добавляя детали.
Что умеет нейросеть DALL‑E 2
Как уже упомянули выше, модель от OpenAI может не только генерировать картинки по запросу, но и создавать проекты, смешивая разные концепции. Нейросеть соединяет два кадра и формирует из них ещё один.
С помощью функции Outpainting можно дорисовывать фон изображения. Интересно дополнять готовые картины или фотографии, развивая на них новые сюжеты. Также есть возможность изменять композицию, редактировать тени и текстуру картинки, добавлять и удалять объекты в кадре.
Одна из возможностей DALL‑E 2 — работа с загруженными файлами. С помощью удобного минималистичного интерфейса легко добавлять элементы на фотографии, генерировать фантастические пейзажи или повышать детализацию картинок.
В чём недостатки DALL‑E 2
На данный момент DALL‑E 2 нельзя назвать идеальным инструментом. Для получения хороших результатов нужно экспериментировать, пробовать разные запросы и подправлять параметры. Нейросеть периодически выдаёт забавные или даже устрашающие кадры с искажением объектов и неправильным расположением элементов.
Система особенно часто ошибается, если давать ей длинные запросы и указывать слишком много специфических деталей. Она не очень хорошо определяет профессиональные термины, а также сбивается, если использовать отрицания или исключения вместо прямых указаний на то, что должно быть в кадре.
Как пользоваться DALL‑E 2
Начать пользоваться системой можно на сайте OpenAI, в разделе DALL·E 2, нажав на кнопку Try DALL‑E 2. Если у вас ещё нет аккаунта на сайте, то его можно получить через адрес электронной почты или существующие профили Google либо Microsoft.
Российским пользователям сервис недоступен, но работает из-за рубежа. Кроме того, понадобится виртуальный номер для регистрации аккаунта. Подробнее о создании учётной записи на сайте OpenAI вы можете прочитать в материале про ChatGPT.
После авторизации у вас должно быть 35 бесплатных кредитов для генерации изображений на месяц. Каждый следующий месяц даётся по 15 попыток. Пополнить баланс в личном кабинете можно кнопкой Buy credits. Минимум придётся заплатить 15 долларов за 115 запросов. К сожалению, пользователи из России пополнить баланс напрямую сейчас не могут.
Есть несколько вариантов решения проблемы: попросить друга с соответствующим доступом к платёжной системе внести средства на счёт или предоставить на время аккаунт, найти и купить готовый профиль OpenAI через торговые онлайн‑площадки либо использовать другие сервисы на базе DALL‑E.
Самая удобная альтернатива — Microsoft Image generator. Этот инструмент работает на алгоритмах DALL‑E 2 и выдаёт почти такие же результаты бесплатно. Но в нём нет режима редактирования картинок, достраивания кадра и прочих полезных фишек. Аналог можно задействовать только для генерирования изображений, а затем подправлять результат другими программами. Для использования понадобится аккаунт Microsoft. Но сервис также доступен только зарубежным пользователям.
Делать запрос для генерации как на сайте DALL‑E 2, так и в Image generator лучше на английском языке, но на русском система тоже выдаёт неплохие результаты. Кнопка Surprise me («Удивите меня»), которая находится рядом со строкой ввода, автоматически выдаст необычный запрос для тестирования нейросети.
Чтобы получить качественный результат, используйте запросы, которые будут чётко описывать желаемый кадр, но без излишних деталей. В строке ввода стоит вписать тип изображения. Это может быть портрет, картинка акварелью, карандашный набросок и тому подобное.
Также укажите вариант освещения в кадре и стиль. Допустим, реалистичное отображение, как в комиксе или конкретную манеру известного художника. Дополнить это желательно примерным уровнем яркости.
В конце строки можно дописать контекст происходящего. Например, что кадр содержит не только луноход, но и момент, как тот движется на фоне Земли. Или сцену, на которой плюшевые зайцы сражаются с инопланетянами.
Запрос не обязательно должен включать все пункты, результат всё равно может получится интересным, но процент успеха будет заметно ниже. Составить удачную команду помогут специализированные инструменты, например Promptomania.
Лучшие предложения
Отборные скидки: выгодные предложения от AliExpress, «М.Видео» и других магазинов
Выгодно: мощный пауэрбанк Rocoren со скидкой 40%
Находки AliExpress: 20 самых популярных товаров ноября
10 полезных товаров дешевле 500 рублей
Создаём новогоднее настроение: 15 классных товаров для дома
Выгодно: GaN-зарядка Baseus на 65 Вт со скидкой 62%
Цена дня: Bluetooth-колонка Tronsmart за 11 900 рублей
Надо брать: автоматическая кофемашина DeLonghi за 25 492 рубля
Копить с умом: 7 заблуждений, которые мешают собрать денежную подушку
Как найти себя в науке: 3 полезные инициативы для школьников, студентов и выпускников
«Поздно что-то менять»: 5 вредных убеждений, которые не дают уйти из нелюбимой профессии
Путешествие в будущее к работе мечты. Как ВТБ создал игру, которая помогает прокачивать резюме
Реклама