Нейросетевой озвучкой сегодня сложно кого-то удивить. YouTube пару лет активно тестирует дубляж роликов на разных языках с помощью Gemini, похожая функция есть в «Яндекс Браузере». Да и каждому, наверное, хоть раз уже звонил бот, звучащий почти как человек. Некоторые модели идут ещё дальше: нейросеть анализирует пример голоса, а потом озвучивает им присланный пользователем текст. Собрали примеры достойных ИИ-сервисов для клонирования голоса.
Учитывайте, что разработчики перестраховываются и иногда требуют подтвердить, что у вас есть согласие владельца голоса на его использование, и это важно. В моменте, конечно, наличие прав никак не проверяется, и у вас вряд ли будут проблемы из-за поздравления подруги голосом её любимого актёра. А вот коммерческое использование чужой личности или распространение фейков с голосами известных людей могут привести к печальным последствиям.
1. Chatterbox Multilingual Demo
Как следует из названия, это демонстрация мультиязычной модели Chatterbox: с ограничениями, зато бесплатно. Нейросеть позволяет скопировать голос и использовать его для озвучки текста на 23 языках, включая русский. При этом лучше, чтобы язык на входе и выходе совпадал, иначе могут возникнуть проблемы из-за иноязычного акцента.
Тестовая модель доступна на платформе Hugging Face Space и имеет, по сути, лишь одно серьёзное ограничение: за раз нельзя озвучить текст длиннее 300 символов. Перед генерацией можно настроить скорость и экспрессивность речи, а также использовать фиксированный сид. Последнее особенно важно, чтобы генерировать озвучку в одном стиле.
У разработчиков также есть полноценная версия нейросети с интерфейсом — Resemble AI, но в ней функция клонирования голоса полностью скрыта за подпиской, никакой демонстрации нет. В бесплатной версии можно только создавать голос по текстовому промпту или пользоваться готовыми, причём исключительно для англоязычной озвучки.
Chatterbox Multilingual Demo на Hugging Face Space →
2. Vocloner
Простейший в использовании сервис, который распознаёт аудиозапись, получает из неё образец голоса и озвучивает им текст. Образцы сохраняются в библиотеке пользователя, повторять процедуру каждый раз не нужно. При распознавании голоса и вводе текста языки определяются автоматически. С русским всё работает без проблем и голос получается довольно естественным — с живым ходом речи и паузами, слова не разбиваются на слоги. Экспортировать файл можно в MP3 или WAV.
Есть продвинутый режим с расширенными настройками, например можно добавлять паузы, посторонние звуки вроде покашливания и смеха, выбирать настроение и тон, но такой режим работает только с платной подпиской. Она же потребуется, чтобы озвучивать тексты длиннее 200 символов.
3. Speechify Studio
Сервис предлагает полноценную функцию клонирования голоса: можно один раз «скормить» ему кусочек речи, чтобы получить готовый пресет и использовать его для озвучки текстов в любой момент. Подход Speechify Studio обеспечивает более стабильные результаты, чем подход других сервисов, которые не сохраняют голоса и каждый раз анализируют примеры заново.
В редакторе текста для озвучки можно самостоятельно расставить паузы, также есть настройки скорости, тона и стиля подачи. Итоговый файл доступен в формате MP3.
Проанализировать голос и озвучить им текст до 1 000 знаков можно бесплатно в демоверсии на главной странице, но результат не получится скачать и нельзя будет использовать в коммерческих целях. Если качество устраивает и хочется озвучивать фразы таким голосом, придётся покупать подписку.
4. Wavel AI
Сервис заточен под озвучку и дубляж видеоконтента голосами из обширной библиотеки или скопированными из примера пользователя. Хотя поддержка русского заявлена в десятках голосов, исходно они иноязычные и по-русски звучат слишком механически. С клонированными голосами такой проблемы обычно нет. По крайней мере, если не переводить их на другие языки.
При генерации озвучки можно ввести текст длиной до 1 000 символов, выбрать модель — обычную или премиальную — и задать скорость речи. Других настроек нет.
Бесплатная версия Wavel AI — ровно в том объёме, чтобы можно было проверить качество перед подпиской. С продвинутой моделью можно скопировать только один голос и сгенерировать одну минуту аудио, при этом экспортировать результат не выйдет. Помимо этого можно попробовать базовую модель для клонирования речи и озвучки: бесплатных кредитов хватит на 13 минут, но скачать файл без подписки всё равно не дадут.
5. Voice.ai
Сервис, известный в первую очередь преобразователем голоса и голосовыми ИИ-агентами для служб поддержки. Последние позволяют настроить и автоматизировать звонки, чтобы перекинуть рутину на роботов вместо реальных сотрудников. Но копирование голоса и озвучка текстов здесь тоже есть, в том числе на русском.
Как и почти все аналоги, Voice.ai распознаёт голос по любой записи с микрофона или из аудиофайла. Готовому образцу можно добавить название и аватарку, дать описание, поставить до пяти тегов. Далее его можно использовать для озвучки текста, который должен быть разбит на абзацы длиной до 500 символов. Настройки пауз и интонаций нет, все естественные огрехи голоса добавляются автоматически, но паузы не всегда встают куда надо. Доступные настройки относятся ко всей озвучке и позволяют контролировать степень креативности, разнообразия в подаче, соответствия образцу и так далее.
Без подписки можно озвучить до 1 000 символов текста одним или разными голосами, при этом экспорт будет недоступен. Для загрузки созданной озвучки, дополнительных клонирований голоса и генераций придётся оформлять подписку.