Как пользоваться нейросетью Kandinsky

Российский сервис, который помогает быстро создавать и редактировать изображения.

Что такое Kandinsky

Kandinsky — это нейросеть «Сбера» для генерирования изображений. Она способна создавать картинки по текстовым запросам, а также представлять вариации уже готовых изображений и объединять стили из разных кадров.

👌 В телеграм-канале «Лайфхакер» лучшие статьи о том, как сделать жизнь проще.

Система определяет запросы на разных языках, в том числе уверенно работает на русском. Последняя версия сервиса на данный момент — это Kandinsky 2.2. Нейросеть учитывает дополнительные параметры при генерации результата, включая фон и стиль.

Что умеет нейросеть Kandinsky 2.2

Как уже упомянули выше, Kandinsky умеет не только выдавать картинки по запросу, но и формировать изображения с помощью смешения разных концепций или стилей. Нейросеть «Сбера» поддерживает несколько режимов работы. В стандартном она генерирует результат по введённому текстовому промпту. При объединении кадров она анализирует два и компонует из них новый.

Также системе можно «скормить» одну готовую картину или фотографию, дописав нужные характеристики. В этом случае Kandinsky создаст новое изображение, учитывая визуальный пример и промпт одновременно.

Кроме того, сервис поддерживает режим outpainting, или дорисовывание. Эта функция позволяет дополнять готовый кадр новыми деталями, которых там раньше не было. Ещё один режим работы — это перенос стиля. С его помощью получится использовать часть деталей исходной картинки на сгенерированном изображении.

Как пользоваться Kandinsky 2.2

Нейросеть доступна через несколько сервисов разных форматов. Так, Kandinsky можно протестировать на сайте Fusion Brain. Там получится сгенерировать картинки по текстовым командам, а также использовать инструмент дорисовки.

Также в Telegram доступен официальный бот Kandinsky. С его помощью получится создать изображения на основе текста, смешать две разных картинки, перенести стиль и сформировать вариации готовых кадров.

Кроме того, на сайте ruDALL‑E есть форма для создания изображений с базовыми настройками. Ещё нейросеть Kandinsky интегрирована в голосовой помощник «Салют» от «Сбера». Здесь необходимо запустить навык «Включи художника», чтобы генерировать картинки. К тому же сервисом можно пользоваться через бота «ВКонтакте» и на официальном сайте «Сбера».

Боту в Telegram достаточно указать режим работы соответствующей кнопкой, а затем ввести текст запроса или загрузить нужные изображения. Сервис работает бесплатно и выдаёт результаты довольно быстро. Сбои и ошибки случаются редко — при очень большом количестве одновременных команд от пользователей.

Инструмент для редактирования и расширения кадра в Kandinsky есть только на сайте Fusion Brain. Помимо этого для работы там предусмотрены широкая область с изображением, текстовое поле для промпта и выпадающее меню с десятками стилей. В списке можно выбрать один из популярных примеров — от киберпанка до советских мультфильмов.

Изображение: Kandinsky 2.2

Стиль не обязательно отмечать в настройках, его можно указать в текстовом запросе. Написать можно даже тот вариант, которого пока нет в базовом списке. В этом случае стоит оставить параметр «Без стиля» в меню.

Для картинок можно выбрать одно из доступных соотношений сторон и разрешений. Нейросеть выдаёт кадры размером 1 152 × 768 пикселей, 1 024 × 1 024 пикселя, 680 × 1 024 пикселя и наоборот, 576 × 1 024 пикселя и наоборот.

Дорисовка позволяет формировать картины из небольших идей. Достаточно выделить часть готового кадра и пустую область, а затем ввести текстовую команду, по которой Kandinsky определит, как именно нужно расширить указанный кадр, добавив к нему детали или продолжения объектов.

При работе над проектами с графикой можно быстро генерировать новые идеи с помощью нейросети «Сбера». Для этого пригодится инструмент «Ластик», или Erase, во Fusion Brain. Достаточно стереть часть готового кадра, а затем по текстовому описанию добавлять новые элементы на освободившееся место. При этом получится выдержать картинку в едином стиле или соединить разные концепции.

Во время переноса стиля с готового кадра на новый Kandinsky позволяет использовать позы людей с фотографии или картины, а также общие очертания исходного изображения. Например, на портрете получится заменить одного человека другим, при этом сохранив общую композицию и фон. Этот алгоритм работает через ⁠бота в Telegram.

При смешивании двух изображений система не сохраняет построение или расположение предметов. Объединение происходит случайным образом, что иногда приводит к неожиданным результатам и новым идеям.

В чём недостатки Kandinsky 2.2

Изображение: Kandinsky 2.2

Kandinsky 2.2 гораздо лучше справляется с генерированием реалистичных кадров по сравнению с предыдущими версиями. Результаты похожи на популярный сервис Midjourney, но пока ещё уступают по уровню детализации.

Для получения хороших результатов необходимо экспериментировать с параметрами и описанием запросов. Периодически Kandinsky выдаёт изображения с ошибками. Например, знакомые многим объекты архитектуры система отображает странным образом. Но это обычно происходит, если вводить слишком длинные промпты с большим количеством второстепенных деталей.

Это упрощённая версия страницы.

Читать полную версию
Обложка: Wikimedia Commons / romi49 / Shutterstock / Ксения Малкова / Лайфхакер
Если нашли ошибку, выделите текст и нажмите Ctrl + Enter
Руслан Арифуллин
08.09.23 16:24
А что там дружить? Английский на C++ написан.
1 2
09.09.23 00:16
Вопрос в другом: ЗАЧЕМ?
Арепьев Арепьев
23.03.24 18:06
Kandinsky (я пробовала 3.0) на мой взгляд отстой, для игр воспитанников детского сада.
Pavel Chagin
12.04.24 13:10
Какой в нем толк, если использовать результаты гернерации в коммерческих целях запрещено?
Читать все комментарии