Несмотря на то, что поговорить с Siri по душам пока что не получается, аналитики уверены: мы стоим на пороге революции. Чего ждать от голосовых интерфейсов в ближайшее время?

Изображение или звук?

Computer History/Xerox PARC
Computer History/Xerox PARC

В 1979 году молодой Стив Джобс посетил легендарную Xerox PARC, R&D-лабораторию в Калифорнии, где побывал на демонстрации того, что сегодня называют графическим пользовательским интерфейсом. Сотрудник PARC использовал прототип мыши, чтобы управлять происходящим на экране: передвигать иконки, открывать меню и переключаться между «окнами», которые, словно листы бумаги на столе, накладывались друг на друга. Джобсу хватило 10 минут, чтобы понять — когда-нибудь каждый компьютер будет работать именно так.

По легенде, Джобс примчался в Apple и первым делом приказал своей команде интегрировать графический интерфейс в Macintosh. И это изменило мир технологий, ускорив его развитие. Интересно и другое: во время визита Джобса команда разработчиков PARC работала и над другим проектом. Они пытались создать то, что сегодня называют голосовым пользовательским интерфейсом. Здесь считали, что можно полноценно работать с компьютером, просто ведя диалог. Таким образом, основой для интерфейса станет просто человеческий язык.

Запомните фамилию «Каплан»

Schuchart
Schuchart

Одним из ученых группы PARC был некий Рон Каплан — лингвист, психолог и разработчик. Он говорит, что тогда его команда создала подобие голосового интерфейса. В 70-х годах у них получилось создать систему заказа билетов на самолет, которая понимала разговорный английский. Но сделать ее массовой и используемой повсеместно разработчики не смогли. Во-первых, для этого потребовались бы более мощные компьютеры, которые смогли бы обрабатывать такое количество информации. Во-вторых, стоимость проекта была зашкаливающей.

Сегодня Рон Каплан — вице-президент и главный разработчик в Nuance Communications. Эта корпорация — крупнейший игрок в сфере голосового интерфейса. Именно с ней сотрудничают Ford, Apple, Amazon и Microsoft. Сотни стартапов тоже не отстают и налаживают партнерство с Nuance Communications. Все эти компании считают: вскоре вы будете разговаривать со своим смартфоном так же, как беседуете с друзьями. Что еще важнее, гаджет сможет вам ответить.

Конечно, если получится создать крутой голосовой интерфейс, это очень сильно ускорит развитие технологий. Но Кремниевая долина — еще не весь мир, а управление с помощью речи будет иметь намного больший эффект — многие с компьютером даже на «вы» не умеют общаться. В 1979 году Стив Джобс увидел возможность сделать компьютер более понятным и привлекательным для широких масс. Однако для того, чтобы пользоваться им, все равно приходилось учить некое подобие «компьютерного языка» — по крайней мере, элементарные команды. Голосовой интерфейс доступен практически всем, и не нужно проходить специальную подготовку, чтобы общаться с гаджетом на равных.

SoundHound сделали это

Forbes
Forbes

Ложка дегтя очевидна: пусть голосовые помощники и живут с нами бок о бок уже несколько лет, они все еще достаточно глупые. Чтобы отдать команду, нужно говорить четкими и простыми словами, иначе вас не поймет голос с другой стороны экрана. Это и понятно: полноценный язык остается недоступным для виртуальных ассистентов. Можно спросить о чем-то простом и получить свой ответ. Но стоит задать хоть мало-мальски сложный по конструкции вопрос — и вас отправят в Google. Каждая логическая связка в предложении оказывается непосильной задачей для голосового интерфейса.

Кейван Мохаджер, СЕО SoundHound, готов представить свой проект, которому неизвестны все вышеперечисленные проблемы. Вообще его компания создала приложение, которое распознает фрагменты музыки и определяет название композиции по звуку. Но это — верхушка айсберга. На самом деле SoundHound уже 10 лет работает над созданием лучшего в мире голосового интерфейса.

Простая демонстрация разработки сразу поразила бы любого. Кейван показал, что можно задать виртуальному помощнику сложный вопрос. Например, если спросить «каково население штата, в котором находится Спейс-Нидл», то интерфейс поймет: Спейс-Нидл — это здание, оно находится в Сиэтле, значит, нужно искать информацию о штате Вашингтон. Виртуальный помощник распознает даже многоуровневые вопросы: Кейван демонстрировал это, проговаривая предложения продолжительностью в минуту. И каждый раз получал правильный ответ.

Тренируйте голос

Adweek
Adweek

Конечно, огромное значение имеет и тот факт, что технология создания голосового интерфейса стала намного доступнее. Все инструменты и разработки, в принципе, можно получить за два счета. Этому способствует и увеличение вычислительной мощности компьютеров, и развитые технологии распознавания речи, мобильной связи, облачных сервисов и нейронных сетей. Теперь мы можем сказать точно: адекватный голосовой интерфейс становится реальностью.

А есть ли спрос на этот продукт? Судя по всему, потребность существует и будет только расти. Все больше устройств можно подключить к интернету, и это не только смартфоны и планшеты, но и бытовые гаджеты. Концепция «умного» дома тоже становится все ближе — и здесь будет просто необходим виртуальный помощник, который по просьбе владельца включит сигнализацию и погасит свет.

С другой стороны, и графический интерфейс уже изживает себя. Мы вынуждены постоянно переключаться между окнами и программами, выбирать в нагромождении иконок одну нужную, искать правильный раздел меню. Особенно хорошо это заметно при работе с Excel или Photoshop — у мощнейших по функционалу программ просто невыносимый интерфейс. И это не проблема разработчиков. Много инструментов, мало места — все очевидно, мы достигаем естественного предела. Когда вы в очередной раз потеряетесь среди сотни вкладок и десятка открытых окон, логичной реакцией будет просьба, обращенная к компьютеру: дескать, покажи мне то, что я ищу!

Придется учиться общаться с техникой. Хорошо, что и она открыта к диалогу и готова взять от нас самое лучшее.

По материалам Wired.