Речевая политика Google

Компания Google выстраивает свою политику в области речевых технологий вокруг двух ключевых факторов — мобильных устройств и рекламы. Мобильный телефон — вечный спутник современного человека и транспорт человеческого голоса. Контекстная реклама — основной источник дохода Google. Как человеческий голос превратить в рекламные площади? Какие шаги требуется для этого предпринять? Чем могут помочь в этом террабайты человеческих голосовых образцов? Обо всем этом — девятилетний опыт Google.

 

GOOG-411

После 4-летних экспериментов и приобретения в октябре 2006 года сервиса платных справочных объявлений [1-877-520-Find] компания Google начинает тестирование, а 6 апреля 2007 года открывает в статусе beta бесплатный сервис GOOG-411. Сервис доступен только на английском языке и только в США и Канаде и служит для поиска голосом информации по местным компаниям. Пользователям предлагается назвать город и штат, а затем название конкретного бизнес-объекта или бизнес-категории (например, «компьютерные магазины»).

Система распознавания речи преобразует голосовой пользовательский запрос в запрос, который подается в Google Maps. Google Maps возвращает отсортированный список предприятий. С помощью синтеза речи выдается от одного до восьми результатов запроса. Пользователи могут выбрать определенный результат, соединиться по телефону с бизнесом-объектом или запросить SMS с информацией и картой. Звонок может быть совершен с мобильного или стационарного телефона, или из Skype.

В 2007 году около 2600 млн. звонков/в год совершаются в справочные службы США. Годовой оборот рынка — $7 млрд.

Политика конфиденциальности данного сервиса реализуется в рамках политики конфиденциальности Google, но дополнительно оговаривается, что при помощи сервиса GOOG-411 собирается необходимая информация [речевые данные] для улучшения и совершенствования других голосовых сервисов Google.

«Я скептически смотрю на возможность заработка на этом сервисе… На самом деле мы его создали для другого. Наши эксперты сказали, что если мы хотим построить действительно надежную языковую модель, нам необходимо бесконечное множество речевых фрагментов».

Марисса Маер, вице-президент Google

12 ноября 2010 года, выполнив свою основную задачу по базовому накоплению речевых фрагментов, сервис GOOG-411 был закрыт

Мобильные приложения

Первое мобильное приложение с функцией речевого ввода было выпущено Google 2 июля 2008 года и представляло собой голосовой поиск на Google Maps с телефонов BlackBerry Pearl. Приложение повторяло функционал сервиса GOOG-411 и по-прежнему доступно только жителям США.

«Наши мобильные телефоны стали швейцарскими ножами. Android — это компьютер, плеер, блокнот, блок GPS-навигации и многое другое, и все это в одной конфетке, которую мы кладем в карман. Подчас мы даже не задумываемся, как со всем этим работать. Но по-прежнему самым естественным способом взаимодействия с телефоном остается речь».

Хьюго Барра, глава подразделения мобильной продукции Google

Параллельно представленной линейке продуктов свое развитие получил мобильный продукт Google Maps Navigation, вышедший 28 октября 2009 года и сочетавший голосовое управление с другими возможностями стандартного GPS-навигатора. 22 марта 2011 года появилась русская версия приложения — Google Навигация.

Следующим шагом Google в области мобильных приложений стал выход Google Mobile App with Voice Search. 17 ноября 2008 года была представлена версия Google Mobile App с голосовым поиском для iPhone и iPod touch с адаптацией результатов поиска в зависимости от местоположения.

Органичным развитием ветви мобильных приложений с речевым интерфейсом стали выход на платформе Android продуктов Voice Input [4 января 2010 года] и Google Voice Action [12 августа 2010 года]. Благодаря этим продуктам пользователи Android получили возможность при помощи голоса:

— набирать sms;

— управлять навигатором;

— вызывать имена из списка контактов;

— писать заметки в блокнот;

— управлять плеером;

— соединяться с организациями;

— посылать email;

— серфить веб-сайты;

— делать запросы в Google.

Google Voice

В июне 2007 Google приобретает за $50+ млн. компанию Grand Central и, объединив свой опыт в области мобильных и речевых интерфейсов, 11 марта 2009 года выпускает новый продукт — Google Voice, бесплатный интернет-сервис, который использует передачу голоса по протоколу VoIP с возможностью соединения вместе всех пользовательских телефонных номеров. Функциональность сервиса GrandCentral была дополнена возможностью транскрибирования голосовой почты и управлением SMS. В ноябре 2009 года за $30 млн. была приобретена компания Gizmo5, усиливающая компетенции Google в области IP-телефонии, а 25 января 2011 года приобретена компания SayNow, предоставлявшая пользователям возможность виртуальной связи с известными людьми посредством мобильного телефона.

Компания является третьей по количеству абонентов (52 млн.) в США после AT&T Mobility и Verizon Wireless.

21 марта 2011 года было объявлено о партнерстве Google и крупнейшего американского провайдера мобильной связи Sprint.

«Мы много работали над тем, чтобы внедрить Google Voice в ваше мобильное устройство. Мы создавали приложения. Но мы все время чувствовали, что самым простым решением для незаметной интеграции с нашим сервисом будет сотрудничество с вашим мобильным оператором. Сегодня мы объявляем о нашем партнерстве со Sprint»

Якоб Хеш, инженер Google

Особенности Google Voice

— Один Google-номер для всех телефонов пользователя.

— Бесплатные звонки и SMS на территории США.

— Международные телефонные звонки по низким тарифам (от $ 0,01 за минуту).

— Фильтрация разговоров. Оповещение о звонке абонента с определением его номера, либо автоматическое отклонение заблокированных номеров.

— Предварительное прослушивание звонящего до начала разговора.

— Блокировка звонков.

— Отправление, получение и сохранение SMS-сообщений в режиме on-line.

— Возможность ответить на входящий вызов по любому из ваших телефонов.

— Распределение телефонов. Возможность установить каким абонентам звонить на какой из ваших телефонов.

— Переадресация звонков.

— Транскрибирование голосового сообщения. Возможность читать сообщения голосовой почты в режиме on-line.

— Прослушивание голосовых сообщений в сети или с телефона.

— Возможность получать уведомления о голосовых сообщениях по электронной почте или SMS.

— Возможность назначить каждому абоненту персонализированное приветствие.

— Возможность пересылать и скачивать голосовое сообщение.

— Конференц-звонок.

— Запись телефонных разговоров и хранение их в Интернете.

— Переключение с телефона на телефон во время разговора.

— Просмотр инбоксов с помощью мобильного устройства/телефона.

— Установка настроек для групп.

— Возможность менять свой номер за дополнительную плату.

Видео


Фрагменты речи Обамы подобраны при помощи сервиса GAUDI

Любой опыт, приобретаемый Google при разработке одних сервисов, всегда переносится на другие. Так, опыт, накопленный при обработке речевых баз GOOG-411, послужил основанием для отладки и выпуска 16 сентября 2008 года экспериментального сервиса GAUDI [Google Audio Indexing]. В рамках бета-тестирования сервис предоставлял возможность поиска слов-терминов в политических роликах YouTube и перемещал на то место видео, где это слово встречается. Через год, 19 ноября 2009 года, Google, использовав опыт GAUDI, запустил новую фичу для всех англоязычных роликов YouTube — Transcribe Audio. При нажатии на кнопку в правом нижнем углу ролика стало возможно запустить распознавание аудио-дорожки и здесь же включить автоматический перевод Google Translate на любой из поддерживаемых переводчиком языков.

Перевод


Демонстрация Conversation Mode

На начало 2011 года в список языков распознавания Google входило более 20, среди которых английский (американский, британский, австралийский, индийский, ново-зеландский), чешский, немецкий, испанский, французский, итальянский, польский, русский, китайский, японский, турецкий, зулусский, африканский и др.

Другой революционный продукт, использующий технологию real-time распознавания и перевода, Google представил на 50-й международной выставке IFA 7 сентября 2010 года. Специальный Conversation Mode мобильного приложения Google Translate для Android позволяет в реальном времени распознавать и переводить естественно звучащую речь.

«Большим поводом для оптимизма является то, что наши языковые модели строятся с помощью машинного обучения. Машина обучается на данных. Получая больше данных, мы строим новые модели и благодаря им получаем новые данные. Google больше, чем кто-либо другой имеет доступ к данным. Именно поэтому мы добиваемся значительного успеха».

Майкл Коэн, руководитель отдела распознавания речи

22 марта 2011 года Google анонсировал поддержку распознавания речи в 11 версии браузера Chrome, выполненную на базе технологии HTML5. А чуть ранее, в декабре 2010 года, Google объявил о возможности персонализации собираемых голосовых данных для увеличения процента достоверности распознавания. Приняв соглашение, пользователь может предоставить Google весь объем данных, связанных с собственным речевым портретом, а также с историей интернет-поиска.

Синтез

«Мы очень рады приобретению технологии Phonetic Arts. И хоть пока мы не можем поделиться достижениями, мы уверены, что вместе мы быстрее будем приближать мир Star Trek»

Майкл Коэн, руководитель отдела распознавания речи

Активно развивая технологию распознавания речи (speech-to-text), Google делает несколько решающих шагов и в области синтеза речи (text-to-speak). 3 декабря 2010 года Google приобретает основанную в 2006 году в Кембридже компанию Phonetic Arts, специализирующуюся на разработке синтезированных голосов для мобильных игр и приложений, а 17 декабря 2010 года заключает партнерское соглашение с компанией SVOX, в рамках которого приобретает возможность использовать в рамках своего сервиса Google Translate синтез речи на 20-ти языках.

Деньги. Вместо заключения

В прошлом году Эрик Шмидт, главный исполнительный директор компании, сформулировал философию Google, как «мобильный вперед», обозначающую приоритетность разработки мобильных приложений и программ для компьютеров. В октябре Google заявил, что доход от мобильных объявлений в следующем году способен будет приблизиться к $ 1 млрд.

«Они очень хорошую сделали работу по позиционированию себя на этом рынке и теперь нельзя просто так все забыть. Теперь они просто вынуждены создавать инновационные продукты и выжимать из этого положения все, что возможно».

Арт Гиллис, президент Computer Based Solutions

Но на сегодняшний день Google сталкивается в первую очередь с почти неконтролируемым ростом использования мобильных устройств, в частности и в области поиска, где компания занимает, по оценке StatCounter, около 97%. В сложившейся ситуации поисковому гиганту не остается ничего другого, как в ожидании появления инновационной системы монетизации мобильного трафика, накапливать на своих серверах террабайты личных данных пользователей.

Комментарии запрещены.