Google, Apple, Microsoft и даже Amazon активно разрабатывают свои голосовые сервисы. На свежеиспечённой iOS 7 всё тот же Siri, только появились новые функции и… голоса. Вам интересно, как происходит этот процесс? Как компьютеры обучают речи? Это настоящее искусство.

Для каждого из голосов Siri — свой актер. После того, как он выполнит свою роль по озвучиванию, работа только начинается… Голос человека продолжает своё путешествие. История этого путешествия, от человека до робота — один из сложнейших технологических процессов, которые было невозможно осуществить лет десять назад.

Давайте познакомимся с директором по дизайну голоса и развитию в Nuance, одной из крупнейших независимых компаний в мире, занимающихся распознаванием речи и преобразованием текста в речь. Брэнт Уорд (J. Brant Ward) раньше был композитором, сочинявшим партии для струнных квартетов на синтезаторах, а теперь он компонует речь, используя синтетические голоса. Он работает в индустрии синтеза речи в Кремниевой долине уже более десяти лет.

Преобразование текста в речь — весьма конкурентоспособная индустрия, а работники её весьма скрытны. Хоть весь мир и верит в то, что Nuance создаёт голоса для Siri, Уорд и его коллега Дэвид Васкес (David Vazquez) уклоняются от прямого ответа. Тем не менее, они согласились объяснить, по крайней мере, в общих чертах, как происходит удивительный процесс создания машинных голосов.

Само собой разумеется, не нужно озвучивать и записывать каждое слово из словаря. Но когда речь идёт о приложении, которое должно прочитать любые новости в вашей рассылке, либо найти что-то для вас в Интернете, оно просто обязано произнести каждое слово в словаре.

Большинство предложений выбиралось по принципу «богатства фонетики» — то есть, они содержат много различных комбинаций фонем. «Дело в том, чем больше данных мы имеем, тем более реалистичным будет результат», — говорит Уорд.

После того как текст записан живым голосом актера (утомительный процесс, который может занять несколько месяцев), начинается очень тяжелая работа. Слова и предложения анализируются, разделяются по категориям и заносятся в большую базу данных. В эту сложную работу вовлечена команда преданных своему делу лингвистов, а также задействовано собственное лингвистическое программное обеспечение.

Когда всё это сделано, устройство Nuance по переводу текста в речь создаёт по битам слова и фразы, которые актер, возможно, никогда на самом деле не произносил, но это звучание очень похоже на речь актера, потому что технически это и есть голос актера.

Процесс говорения является бессознательным. Мы это делаем, не думая о том, как происходит этот процесс: в каком положении находится наш язык, какие отношения выстраиваются между фонемами, и так далее — чтобы легко и эффективно выразить сложные идеи и эмоции. Но для того, чтобы компьютер подобрал человеческое звучание голоса, все эти моменты должны быть учтены. Как сказал один профессор по лингвистике, это задача «титаническая».

Вы не должны думать: «Я говорю с компьютером». Вы вообще не должны об этом задумываться.

«Мои дети взаимодействуют с Siri, как будто это живое существо… Они не чувствуют разницы», — делится Уорд.

Так недалеко и до дружбы между человеком и роботами — такой, как у людей. Многим бы понравилось, если бы Siri могла распознавать эмоциональное состояние говорящего и как-то на это реагировать (например, включать режим успокаивающего голоса). Представляете — выговориться роботу, который морально погладит вас по голове. Может, Nuance уже подумывает об этом?..