Технологии 23 сентября 2013

Машинный язык: откуда Siri берёт свой голос?

Google, Apple, Microsoft и даже Amazon активно разрабатывают свои голосовые сервисы. На свежеиспечённой iOS 7 всё тот же Siri, только появились новые функции и… голоса. Вам интересно, как происходит этот процесс? Как компьютеры обучают речи? Это настоящее искусство.

Для каждого из голосов Siri — свой актер. После того, как он выполнит свою роль по озвучиванию, работа только начинается… Голос человека продолжает своё путешествие. История этого путешествия, от человека до робота — один из сложнейших технологических процессов, которые было невозможно осуществить лет десять назад.

Давайте познакомимся с директором по дизайну голоса и развитию в Nuance, одной из крупнейших независимых компаний в мире, занимающихся распознаванием речи и преобразованием текста в речь. Брэнт Уорд (J. Brant Ward) раньше был композитором, сочинявшим партии для струнных квартетов на синтезаторах, а теперь он компонует речь, используя синтетические голоса. Он работает в индустрии синтеза речи в Кремниевой долине уже более десяти лет.

Преобразование текста в речь — весьма конкурентоспособная индустрия, а работники её весьма скрытны. Хоть весь мир и верит в то, что Nuance создаёт голоса для Siri, Уорд и его коллега Дэвид Васкес (David Vazquez) уклоняются от прямого ответа. Тем не менее, они согласились объяснить, по крайней мере, в общих чертах, как происходит удивительный процесс создания машинных голосов.

Само собой разумеется, не нужно озвучивать и записывать каждое слово из словаря. Но когда речь идёт о приложении, которое должно прочитать любые новости в вашей рассылке, либо найти что-то для вас в Интернете, оно просто обязано произнести каждое слово в словаре.

Большинство предложений выбиралось по принципу «богатства фонетики» — то есть, они содержат много различных комбинаций фонем. «Дело в том, чем больше данных мы имеем, тем более реалистичным будет результат», — говорит Уорд.

После того как текст записан живым голосом актера (утомительный процесс, который может занять несколько месяцев), начинается очень тяжелая работа. Слова и предложения анализируются, разделяются по категориям и заносятся в большую базу данных. В эту сложную работу вовлечена команда преданных своему делу лингвистов, а также задействовано собственное лингвистическое программное обеспечение.

Когда всё это сделано, устройство Nuance по переводу текста в речь создаёт по битам слова и фразы, которые актер, возможно, никогда на самом деле не произносил, но это звучание очень похоже на речь актера, потому что технически это и есть голос актера.

Процесс говорения является бессознательным. Мы это делаем, не думая о том, как происходит этот процесс: в каком положении находится наш язык, какие отношения выстраиваются между фонемами, и так далее — чтобы легко и эффективно выразить сложные идеи и эмоции. Но для того, чтобы компьютер подобрал человеческое звучание голоса, все эти моменты должны быть учтены. Как сказал один профессор по лингвистике, это задача «титаническая».

Вы не должны думать: «Я говорю с компьютером». Вы вообще не должны об этом задумываться.

«Мои дети взаимодействуют с Siri, как будто это живое существо… Они не чувствуют разницы», — делится Уорд.

Так недалеко и до дружбы между человеком и роботами — такой, как у людей. Многим бы понравилось, если бы Siri могла распознавать эмоциональное состояние говорящего и как-то на это реагировать (например, включать режим успокаивающего голоса). Представляете — выговориться роботу, который морально погладит вас по голове. Может, Nuance уже подумывает об этом?..

Лучшие предложения

Это нам надо: наушники Microsoft Xbox Wireless Headset

Надо брать: ноутбук Honor MagicBook X16 за 43 217 рублей

Nahodki AliExpress: samye interesnye i poleznye tovary

Находки AliExpress: самые интересные и полезные товары

15 интересных товаров дешевле 500 рублей

Уютно, практично и стильно: 8 российских брендов текстиля для дома

Лучшие предложения недели: скидки от AliExpress, «Яндекс Маркета», Yves Rocher и других магазинов

Выбирай, но проверяй: как найти в магазине качественный товар

35 вещей для идеального наряда в ковбойском стиле

Это интересно

«Моя работа — постоянный бег». 3 вдохновляющие истории российских учёных

Короткий путь в профессию: 5 причин поступить в колледж

Подкаст «Слушай, это просто»: что такое «Вселенная 25» и можно ли предсказать, к чему приведёт перенаселение планеты

5-й сезон подкаста «Слушай, это просто» стартовал! Первый выпуск — про эффект Бэтмена и пользу выдуманного альтер эго

Куда махнуть на майские: 5 способов спланировать поездку на Ozon Travel быстро и выгодно

Комментарии

Станьте первым, кто оставит комментарий

Что вы могли пропустить

Apple анонсировала «специальное мероприятие» 7 мая. Ждём новые iPad?

ВчераНовости Устройства

Спустя почти год «2ГИС» вернули в Google Play. Перейти к приложению можно по ссылке

ВчераНовости Android

Зачем нужен усилитель сигнала Wi-Fi и как его выбрать

ВчераКак выбрать Ликбез

Есть контакт: NASA восстановило полноценную связь с «Вояджером-1»

ВчераНовости Технологии

iPhone 16 может лишиться физических кнопок

ВчераНовости Технологии

6 modelej umnyh chasov, kotorye umeyut snimat' EKG

6 моделей умных часов, которые умеют снимать ЭКГ

22 апреляЛикбез Устройства

Аккаунты Telegram начали красть с помощью сообщений от «службы поддержки»

22 апреляНовости Технологии

Нет, Apple Pay не заработает в России в ближайшее время

21 апреляНовости iOS

16 luchshih graficheskih redaktorov, kotorye ne stoyat ni kopejki

16 лучших графических редакторов, которые не стоят ни копейки

21 апреляЛикбез Технологии

В App Store выйдет эмулятор Provenance для запуска игр PlayStation и Sega на iPhone

20 апреляНовости iOS

Kak vybrat' otparivatel' pod svoi nuzhdy i ne razocharovat'sya

Как выбрать отпариватель под свои нужды и не разочароваться

20 апреляКак выбрать Ликбез

Huawei представила суперлёгкий ноутбук MateBook X Pro — с ИИ и Ultra 9

20 апреляНовости Устройства

Напоминания Google Keep наконец-то появятся в «Задачах» и «Календаре»

19 апреляНовости Веб-сервисы

Представлена ИИ-клипса Pendant: она записывает все, что вы говорите и слышите

19 апреляНовости Устройства

Доставка из космоса: Sierra Space планирует отправлять грузы в любую точку мира за 90 минут

19 апреляНовости Технологии

Новые комментарии

Alexander Shadrin

22 минуты назад

0 / 0

Вот до какой степени надо мне курить, что я даже буду садить табак если что.

Как в мире ограничивают курение и работает ли это на самом деле

Shurik Zuev

1 час назад

Ну логику явно тренировать нет смысла, спасибо высокой iqшке. А вот память надеюсь поможет "починить" хоть чуть-чуть, ибо моя на данный момент хромает так, что ни интеллект, ни внимательность её ни коим образом не спасают, спасибо ковиду.

NeuroNation — личный тренер для вашего мозга + скидка 30%

One Summer's Day

2 часа назад

Смотрю на принимаемые законы в новостях и там только про запрет и ужесточение в части вейпов речь идёт. А сигареты чтото никто не запрещает. Сигаретное лобби работает

Комментарий дня

Дарья Громова

19 часов назад

+2 / 0

Муж — оперирующий аритмолог, говорит, что снимают)