Как настроить голосовое управление на Андроид. Одна из главных задач операционной системы Андроид — это максимально простое и понятное управление устройством. В каждом обновлении появляется всё больше новых возможностей, которые существенно упрощают пользование. Одной из таких функция является голосовое управление Андроид.

Голосовое управление Андроид

Голосовое управление Андроид — это инновационная технология, с помощью которой можно управлять устройством без лишних манипуляций, а только голосом. Эта функция находится в стадии активного развития и усовершенствования.

Ok, Google на Андроид, даёт возможность более эффективно использовать устройство. Голосом можно выполнять много функций и получать качественный результат. К примеру, искать необходимую информацию, включать/выключать приложения и даже набирать текст. На сегодняшний день данная разработка не идеальна и включает в себя различные недоработки.

Все команды, которые возможно осуществить с помощью голосового управления делятся на две группы.

А именно:

  1. управление функциями самого устройства — если вы хотите послушать музыку, то просто скажите — «Проиграть плейлист», если хотите включить будильник, то произнесите фразу – «Разбуди меня в такое-то время» и так далее
  2. поиск информации — голосовым запросом можно узнать, например, погоду, посмотреть счёт игры любимой команды, найти слова песни и так далее

Но к сожалению, есть и некоторые ограничения в работе голосового управления. Иногда на невостребованные запросы вы не сможете получить информацию. Например, вас интересует расписание сеансов в кинотеатрах Киева, и вы без проблем получите ответ, а вот если вы зададите тот же запрос, но уже касательно менее крупного города, то тут могут возникнуть проблемы, и вы можете столкнуться с отсутствием информации.

Как включить голосовое управление

Для того, чтобы воспользоваться голосовым управлением Ok, Google, необходимо постоянное подключение к интернету. В ограниченных размерах приложение может работать и без интернета, но качество распознавания голоса будет очень плохим и использование функции будет практически невозможным.

Включить голосовое управление несложно. Для этого нужно:

  1. установить приложение Google, если оно у вас уже установлено, то убедитесь, что стоит именно последняя версия
  2. зайти в приложение Google
  3. в верхнем левом углу нажать значок, который выглядит как три горизонтальные линии
  4. далее зайти в «Настройки»
  5. выбрать «Голосовой поиск»
  6. после — «Распознавание Ok, Google» или «На любом экране»

На некоторых устройствах распознавание функции голосового управления доступно не только в приложении Google, но и в других программах. Для этого в программе Google нажмите:

  1. «Настройки»
  2. далее — «Приложения». Там у вас отобразится перечень программ, в которых вы можете использовать Ok, Google

Основными требованиями для работы голосового управления является наличие программы Google версии 3,5 или выше и операционная система Android 4.4 или выше.

Как настроить голосовое управление

Функция Ok, Google всегда активна при условии, если у вас запущено приложение Google или Google Chrome. После активации система зафиксирует ваш голос и в дальнейшем с распознаванием проблем не должно быть. Чтобы осуществить запрос достаточно произнести фразу Ok, Google и сформулировать вопрос или команду.

Как отключить голосовое управление

Отключить Ok, Google не сложнее, чем включить. Для этого нужно сделать следующее:

  1. зайти в приложение Google
  2. в верхнем левом углу значок, который выглядит как три горизонтальные линии
  3. выбрать «Голосовой поиск»
  4. далее «Распознавание Ok, Google»
  5. убрать флажок — «На любом экране» или «Всегда включено»

Команды голосового управления

Ok, Google распознаёт множество разных команд. Нет конкретного перечня выполняемых запросов, так как у каждого пользователя они разные.

Вот небольшой список команд, которые можно осуществить с помощью голосового управления:

  • позвонить любому человеку из списка контактов
  • отправить текстовое сообщения
  • отправить письмо по электронной почте
  • опубликовать запись в социальных сетях
  • отследить посылку
  • запустить приложение
  • узнать погоду
  • проложить маршрут до места назначения
  • найти место, компанию, заведение
  • перевести текст с одного языка на другой
  • определить песню и так далее

Не работает голосовое управление. Какие могут быть причины и как исправить?

Убедитесь, что голосовое управление активно: «Настройки» — «Голосовой поиск» — «Распознавание О’кей, Google». Установите флажок — «Из приложения Google». Также для правильной работы голосового управления необходимо подключение к интернету. Убедитесь, что устройство подключено к Wi-Fi или мобильному интернету. Попробуйте перезагрузить устройство.

Источник: androidmir.org

Существует несколько причин, по которым пользователи не могут управлять компьютером с помощью штатных средств — клавиатуры и мыши. Во-первых, это может быть связано с поломкой названных устройств. Во-вторых, такая необходимость возникает у людей с ограниченными возможностями. И наконец, в-третьих, пользователи просто хотят как-то облегчить себе задачу работы с компьютером, отдавая ему команды голосом.

Голосовое управление компьютером выполняется при помощи специального программного обеспечения.

ОС Windows располагает штатным приложением распознавания речи, но к сожалению, оно не поддерживает русский язык, а только — английский, французский, испанский, немецкий, японский и китайский.

Если интерфейс вашего дистрибутива Windows рассчитан для носителей одного из вышеперечисленных языков и, конечно, вы говорите на нём, тогда вы сможете использовать штатную программу распознавания речи. Для этого нужно проделать 3 шага: настроить микрофон, пройти несложный учебный курс по управлению компьютером при помощи голоса (он также включен в Windows) и настроить саму программу распознавания речи.

Чтобы сделать это, необходимо (описание разделов ОС будет вестись на русском языке):

  • В меню «Пуск» находим раздел «Панель управления» и открываем его. Далее ищем «Распознавание речи».
  • Чтобы начать настройку микрофона, зайдите в соответствующий раздел — «Настройка микрофона». Запуститься мастер, который поможет вам произвести необходимые настройки.
  • Теперь необходимо запустить учебник. Для этого также заходим в раздел «Распознавание речи», а затем запускаем команду «Использование речевых учебников». Снова следуйте инструкциям мастера.
  • Для настройки программы распознавания речи следует запустить команду «Научите компьютер лучше понимать вас» в том же разделе «Специальные возможности» панели управления. По окончанию процедур вы сможете использовать ваш микрофон в качестве средства для управления компьютером.

А что же делать русскоязычным пользователям Windows? К счастью, выход есть — использование сторонних программ. Подобных приложений существует множество — и платных, и бесплатных. Среди всех приложений для голосового управления компьютером с системой Windows особенно выделяется Typle. О ней и пойдёт речь далее.

Управление компьютером с помощью Typle

По мнению большинства пользователей, кто предпочитает управлять компьютером при помощи голоса, программа Typle является одной из самых лучших (если не самой лучшей).

Это небольшое по размеру приложение способно не только выполнять команды, имеющиеся в её базе данных, но и поддерживает создание пользовательских. Именно последнее особенно ценится в этом приложении.

Программа распространяется бесплатно, но в бесплатной версии имеются ограничения по созданию пользовательских команд. Однако этих возможностей вполне достаточно для штатного пользователя.

Итак, скачиваем и устанавливаем программу. При первом запуске приложение попросит ввести некоторые личные данные — в эти поля вы можете указать любые символы. Затем вам предстоит выбрать лицензию — выбирайте первый вариант из 3-х предложенных (пока все надписи будут на английском языке) и нажимайте .

После того, как приложение соберёт нужную ему для работы информацию, вы увидите стартовое окно с подсказками:

Typle попросит вас нажать на кнопку «Добавить». После нажатия потребуется ввести ваше имя (вводите любое) — это нужно для того, чтобы приложение смогло выполнять именно ваши команды в случае, если вы не являетесь единственным пользователем компьютера. Также заполняем поле «Введите ключевое слово» (можно оставить предложенный вариант «Открой»). Именно это слово будет использоваться для запуска ваших команд, а точнее — эта фраза даст программе сигнал к выполнению команды, которую вы будете произносить далее.

Осталось нажать на кнопку записи, а затем произнести какую-либо фразу (длина записи должна быть короче 1,5 секунд). Для проверки можете проговорить «Открой». После успешной записи Typle спросит вас о сохранении записанной команды.

Далее нажимаем на кнопку «Добавить» в верхнем меню. Откроется окно, в котором вам нужно выбрать программу для её запуска после произнесения ключевого слова в микрофон. Для примера выберем приложение «Opera 35» (вы можете выбрать любую свою программу — браузер, проигрыватель или какой-нибудь мессенджер типа Skype).

Обратите внимание на нижнюю часть окна. В данный момент галочка установлена на пункте «Программы и файлы». Вы также можете выделить и другие пункты. Например, установите галочку на «Windows файлы». Теперь в окне выбора команд для запуска отобразятся стандартные программы Windows (блокнот, Paint, командная строка и так далее), а также различные системные приложения, такие как «Центр обновления» или «Мастер дефрагментации диска» и другие. Это удобная возможность для пользователей, которым часто приходится сталкиваться с настройкой системы компьютера.

Ещё одна интересная способность Typle — возможность открывать избранные интернет-сайты. Для этого нужно установить галочку на пункте «Фавориты Интернета» и выбрать из списка нужный сайт.

Как только вы выбрали подходящее действие, для его выполнения потребуется записать команду. Для этого нажимаем на значок записи рядом с полем, в котором написано название выбранного действия (программы, сайта и тому подобное), а затем произносим любую фразу. В нашем случае — это «Опера».

После успешного сохранения записи вы можете проверить правильность выполнения команды с помощью программы Typle. Для этого вам нужно проговорить в микрофон слово «Открой», а затем сразу фразу, которая была записана вами на последнем шаге для запуска той или иной программы. В нашем случае команда звучит как «Открой Опера». После этих слов программа автоматически запустит браузер.

Как видите, управлять компьютером средствами программы Typle не так уж и сложно. Вы можете создать множество различных команд, при произнесении которых будут запускаться те или иные приложения, открываться документы либо начинаться воспроизведение видео или музыки.

Видео по теме — программа VoxCommando

Хорошая реклама

Корпорация Google начинала свою деятельность как поисковик, и на данный момент поиск информации с помощью мобильных устройств так и остается одним из главных направлений развития. С каждым обновлением системы телефона/планшета, Google Play Services и отдельных программ появляется все больше новых функций, призванных облегчить жизнь пользователю. В этой статье я расскажу о наиболее полезных голосовых командах, контекстном поиске Now on Tap, а также покажу, как настроить телефон для выполнения любых голосовых команд, в том числе с помощью Tasker. Ведь именно об этом мы так мечтали, читая произведения фантастов в детстве.

Традиционно все новейшие разработки от «корпорации добра» внедряются на устройствах линейки Nexus. Так было и с голосовым управлением, и с Google Now, системой подачи информации в виде набора карточек. За Google Now, простой поиск Google и голосовой поиск отвечает одно приложение, это Google. Оно входит в комплект стандартных приложений от компании Google и доступно на любом сертифицированном Android-смартфоне.

Ранее голосовое управление активировалось только при нажатии на значок микрофона при открытой программе поиска (или на виджеты на рабочем столе). Затем появился лаунчер Google Старт, который позволил выполнять голосовые команды прямо с рабочего стола (с помощью фразы «Ok, Google»). Начиная с Android 4.4 та же возможность стала доступна и в других лаунчерах, но только при условии, что лаунчер явно поддерживает такую возможность (почти все популярные лаунчеры поддерживают).

Также существует несколько смартфонов с продвинутой функцией голосового управления, активируемой, даже если экран смартфона выключен. Например, MOTO X содержит отдельный процессор с очень низким энергопотреблением, который только и занимается, что в фоновом режиме слушает все окружающие звуки на предмет ключевой фразы.

Виджет поиска на рабочем столе
Настройки голосового поиска

Голосовые команды

Простой поиск информации, конечно же, самая главная функция Google Now. Причем он достаточно интеллектуален, чтобы понимать контекст, а значит, команды можно объединять в цепочки. Например, если сказать: «О’кей, Google, кто президент Никарагуа?», то поиск выдаст ответ «Даниэль Ортега». А если далее спросить «Сколько ему лет?», то ответ будет «Семьдесят лет». Google Now понимает массу команд, приведу десять наиболее полезных.

  • Карты и навигация — «поехали/навигация #названиеулицы #номердома». Запустит Google Maps в режиме навигатора по указанному адресу. Также можно указывать город, магазин, организацию и так далее.
  • Калькулятор — «тринадцать процентов от пяти тысяч». Выдаст ответ и форму калькулятора в окне поиска. Голосом можно надиктовывать сложение, вычитание, умножение, деление, корень числа. Также можно переводить меры весов, длин и прочего.
  • Отправка СМС/сообщений — «написать смс Олег текст я за рулем, перезвоню позже». Отправлять сообщения также можно через WhatsApp, Viber и еще несколько популярных мессенджеров. По упрощенной схеме можно диктовать «сообщение #программа #контакт #текст». Например: «сообщение WhatsApp Олег я за рулем». После этого также голосом можно подтвердить отправку командой «отправить».
  • Набор номера — «позвонить маме». Также можно продиктовать произвольный номер, которого нет в записной книге. При команде «позвонить сестре/брату» можно указать номер из контактов (если записано по-другому), тогда в следующий раз набор будет проходить автоматически.
  • Напоминания и будильники — «разбудить меня в субботу в восемь утра» или «напомнить мне выключить плиту через десять минут». Также можно добавлять мероприятия в Google-календарь. События можно привязывать не только ко времени, но и к месту. Если добавить «напомни мне распечатать текст на работе», то при включенной геолокации и указанном адресе работы (места на карте) напоминание на телефоне всплывет автоматически. Обычный встроенный в приложение «Часы» таймер заводится так же легко.
  • Угадай мелодию — «что это за песня». Запустит распознавание играющей музыки.
  • Музыка/видео — «слушать (музыку) #группа #песня». Запустит указанную музыку в Play Music или клип на YouTube. Нормально работает с русскими названиями, но так как английские слова и исполнителей определяет, иногда неправильно интерпретируя под русский язык, то срабатывает не всегда.
  • Фото/видео — «сделай фото / записать видео». Запустит камеру в выбранном режиме.
  • Управление настройками — «выключи вайфай», «включи фонарик».
  • Заметки — «заметка для себя тестовый пароль для сервиса один два три четыре». Добавит заметку в Google Keep.

Now on Tap

Описанию этого сервиса было уделено отдельное пристальное внимание на презентации Android 6.0 Marshmallow. И преподносился он как одна из основных особенностей новой прошивки. Но более-менее нормальную функциональность в России мы получили только в декабре. В официальном русском переводе он называется контекст от Now.

Как это работает? «Когда вы запускаете контекст от Now, Google анализирует все, что вы видите на экране, и ищет информацию в соответствии с этими данными» — вот официальное описание со страницы поддержки. На деле это значит, что вместо того, чтобы выделять и копировать интересующие фразы на экране, затем открывать поиск и вставлять фразу, можно просто нажать и удерживать кнопку «Домой». После этого Google предложит варианты для найденных ключевых фраз. Это могут быть картинки, видео, предложение открыть это место на картах, новости. Может предложить открыть сайт организации или сделать звонок, открыть профиль Facebook или посмотреть Twitter-аккаунт знаменитостей, добавить заметку. При наличии соответствующих приложений на устройстве после тапа на иконке страница откроется сразу внутри приложения. При прослушивании музыки из разных приложений можно одним нажатием вызвать подробную информацию об исполнителях, альбомах, клипах на YouTube и прочем.

Работа Now on Tap на примере «ВКонтакте»

Пасхалки в поиске Google

Так же как и в десктопной версии поиска, в голосовом поиске есть пасхалки. Приведу только несколько команд, остальные можешь узнать по этой ссылке. К сожалению, почти все они срабатывают только на английском языке и с английским интерфейсом или при выбранном в настройках только английском языке.

Tasker

Если после всего прочитанного тебе все равно не хватает команд для воплощения своих фантазий, то, имея немного времени, можно настроить Google Now на выполнение практически любых команд. Для этого нам понадобятся прежде всего Tasker и плагин AutoVoice.

Продолжение доступно только участникам

Вариант 1. Присоединись к сообществу «Xakep.ru», чтобы читать все материалы на сайте

Членство в сообществе в течение указанного срока откроет тебе доступ ко ВСЕМ материалам «Хакера», увеличит личную накопительную скидку и позволит накапливать профессиональный рейтинг Xakep Score! Подробнее

Вариант 2. Открой один материал

Заинтересовала статья, но нет возможности стать членом клуба «Xakep.ru»? Тогда этот вариант для тебя! Обрати внимание: этот способ подходит только для статей, опубликованных более двух месяцев назад.

Я уже участник «Xakep.ru» Если вас интересует, как помочь обездвиженному человеку управлять компьютером для общения с внешним миром – вам сюда. Если вам интересно, какое отношение к этому имеют мел-частотные кепстральные коэффициенты и нейронные сети – вам тоже сюда.

Часть I. Программа для управления компьютером при помощи голоса

Ко мне обратился человек с просьбой написать программу, которая позволила бы управлять компьютерной мышью при помощи голоса. Тогда я и представить себе не мог, что, практически полностью парализованный человек, который даже не может сам повернуть голову, а может лишь разговаривать, способен развить бурную деятельность, помогая себе и другим жить активной жизнью, получать новые знания и навыки, работать и зарабатывать, общаться с другими людьми по всему свету, участвовать в конкурсе социальных проектов. Позволю себе привести здесь пару ссылок на сайты, автором и/или идейным вдохновителем которых является этот человек – Александр Макарчук из города Борисов, Беларусь:

«У Совы» — школа дистанционного обучения для людей с ограниченными возможностями. sova.by
«Без ограничений» — советы для тех, кому нужно работать на компьютере без рук bezogranicheniy.ru

Для работы на компьютере Александр использовал программу «Vocal Joystick» — разработку студентов Университета штата Вашингтон, выполненную на деньги Национального Научного Фонда (NSF). См. melodi.ee.washington.edu/vj Не удержался Кстати, на сайте университета (http://www.washington.edu/) 90% статей именно про деньги. Трудно найти что-нибудь про научную работу. Вот, например, выдержки с первой страницы: «Том, выпускник университета, раньше питался грибами и с трудом платил за квартиру. Теперь он старший менеджер ИТ-компании и кредитует университет», «Большие Данные помогают бездомным», «Компания обязалась заплатить 5 миллионов долларов за новый учебный корпус». Это одному мне режет глаз? Программа была сделана в 2005-2009 годах и хорошо работала на Windows XP. В более свежих версиях Windows программа может зависнуть, что неприемлемо для человека, который не может встать со стула и её перезапустить. Поэтому программу нужно было переделать. Исходных текстов нет, есть только отдельные публикации, приоткрывающие технологии, на которых она основана (MFCC, MLP – читайте об этом во второй части). По образу и подобию была написана новая программа (месяца за три). Собственно, посмотреть, как она работает, можно здесь: Скачать программу и/или посмотреть исходные коды можно здесь. Никаких особенных действий для установки программы выполнять не надо, просто щёлкаете на ней, да запускаете. Единственное, в некоторых случаях требуется, чтобы она была запущена от имени администратора (например, при работе с виртуальной клавиатурой “Comfort Keys Pro”): Пожалуй, стоит упомянуть здесь и о других вещах, которые я ранее делал для того, чтобы можно было управлять компьютером без рук. Если у вас есть возможность поворачивать голову, то хорошей альтернативой eViacam может послужить гироскоп, крепящийся к голове. Вы получите быстрое и точное позиционирование курсора и независимость от освещения. Подробнее – здесь. Если вы можете двигать только зрачками глаз, то можно использовать трекер направления взгляда и программу к нему (могут быть сложности, если вы носите очки). Подробнее – здесь.

Часть II. Как это устроено?

Из опубликованных материалов о программе «Vocal Joystick» было известно, что работает она следующим образом:

  1. Нарезка звукового потока на кадры по 25 миллисекунд с перехлёстом по 10 миллисекунд
  2. Получение 13 кепстральных коэффициентов (MFCC) для каждого кадра
  3. Проверка того, что произносится один из 6 запомненных звуков (4 гласных и 2 согласных) при помощи многослойного персептрона (MLP)
  4. Воплощение найденных звуков в движение/щелчки мыши

Первая задача примечательна лишь тем, что для её решения в реальном времени пришлось вводить в программу три дополнительных потока, так как считывание данных с микрофона, обработка звука, проигрывание звука через звуковую карту происходят асинхронно. Последняя задача просто реализуется при помощи функции SendInput. Наибольший же интерес, мне кажется, представляют вторая и третья задачи. Итак.

Задача №2. Получение 13 кепстральных коэффициентов

Если кто не в теме – основная проблема узнавания звуков компьютером заключается в следующем: трудно сравнить два звука, так как две непохожие по очертанию звуковые волны могут звучать похоже с точки зрения человеческого восприятия. И среди тех, кто занимается распознаванием речи, идёт поиск «философского камня» — набора признаков, которые бы однозначно классифицировали звуковую волну. Из тех признаков, что доступны широкой публике и описаны в учебниках, наибольшее распространение получили так называемые мел-частотные кепстральные коэффициенты (MFCC). История их такова, что изначально они предназначались совсем для другого, а именно, для подавления эха в сигнале (познавательную статью на эту тему написали уважаемые Оппенгейм и Шафер, да пребудет радость в домах этих благородных мужей. См. A. V. Oppenheim and R.W. Schafer, “From Frequency to Quefrency: A History of the Cepstrum”). Но человек устроен так, что он склонен использовать то, что ему лучше знакомо. И тем, кто занимался речевыми сигналами, пришло в голову использовать уже готовое компактное представление сигнала в виде MFCC. Оказалось, что, в общем, работает. (Один мой знакомый, специалист по вентиляционным системам, когда я его спросил, как бы сделать дачную беседку, предложил использовать вентиляционные короба. Просто потому, что их он знал лучше других строительных материалов). Являются ли MFCC хорошим классификатором для звуков? Я бы не сказал. Один и тот же звук, произнесённый мною в разные микрофоны, попадает в разные области пространства MFCC-коэффициентов, а идеальный классификатор нарисовал бы их рядом. Поэтому, в частности, при смене микрофона вы должны заново обучать программу. Это всего лишь одна из проекций 13-мерного пространства MFCC в 3-мерное, но и на ней видно, что я имею в виду – красные, фиолетовые и синие точки получены от разных микрофонов: (Plantronix, встроенный массив микрофонов, Jabra), но звук произносился один. Однако, поскольку ничего лучшего я предложить не могу, также воспользуюсь стандартной методикой – вычислением MFCC-коэффициентов. Чтобы не ошибиться в реализации, в первых версиях программы в качестве основы был использован код из хорошо известной программы CMU Sphinx, точнее, её реализации на языке C, именующейся pocketsphinx, разработанной в Университете Карнеги-Меллона (мир с ними обоими! (с) Хоттабыч). Исходные коды pocketsphinx открыты, да вот незадача – если вы их используете, то должны в своей программе (как в исходниках, так и в исполняемом модуле) прописать текст, содержащий, в том числе, следующее:

* This work was supported in part by funding from the Defense Advanced * Research Projects Agency and the National Science Foundation of the * United States of America, and the CMU Sphinx Speech Consortium.

Мне это показалось неприемлемым, и пришлось код переписать. Это сказалось на быстродействии программы (в лучшую сторону, кстати, хотя «читабельность» кода несколько пострадала). Во многом благодаря использованию библиотек “Intel Performance Primitives”, но и сам кое-что оптимизировал, вроде MEL-фильтра. Тем не менее, проверка на тестовых данных показала, что получаемые MFCC-коэффициенты полностью аналогичны тем, что получаются при помощи, например, утилиты sphinx_fe. В программах sphinxbase вычисление MFCC-коэффициентов производится следующими шагами:

Шаг Функция sphinxbase Суть операции
1 fe_pre_emphasis Из текущего отсчёта вычитается большая часть предыдущего отсчета (например, 0.97 от его значения). Примитивный фильтр, отбрасывающий нижние частоты.
2 fe_hamming_window Окно Хемминга – вносит затухание в начале и конце кадра
3 fe_fft_real Быстрое преобразование Фурье
4 fe_spec2magnitude Из обычного спектра получаем спектр мощности, теряя фазу
5 fe_mel_spec Группируем частоты спектра [например, 256 штук] в 40 кучек, используя MEL-шкалу и весовые коэффициенты
6 fe_mel_cep

В эти шаги ещё вклиниваются функции, которые позволяют отделить сигнал от шума и от тишины, типа fe_track_snr, fe_vad_hangover, но нам они не нужны, и отвлекаться на них не будем. Были выполнены следующие замены для шагов по получению MFCC-коэффициентов:

Шаг Функция sphinxbase Переделка
1 fe_pre_emphasis
2 fe_hamming_window
3 fe_fft_real ippsDFTFwd_RToCCS_32f
4 fe_spec2magnitude
5 fe_mel_spec
6 fe_mel_cep

Что же дальше? У нас есть вектор 13-мерного пространства. Как определить, к какому звуку он относится?

Задача №3. Проверка того, что произносится один из 6 запомненных звуков

В программе-оригинале «Vocal Joystick» для классификации использовался многослойный персептрон (MLP) – нейронная сеть без новомодных наворотов. Давайте посмотрим, насколько оправдано применение нейронной сети здесь. Вспомним, что делают нейроны в искусственных нейронных сетях. Если у нейрона N входов, то нейрон делит N-мерное пространство пополам. Рубит гиперплоскостью наотмашь. При этом в одной половине пространства он срабатывает (выдаёт положительный ответ), а в другой – не срабатывает. Давайте посмотрим на [практически] самый простой вариант – нейрон с двумя входами. Он, естественно, будет делить пополам двумерное пространство. Пусть на вход подаются значения X1 и X2, которые нейрон умножает на весовые коэффициенты W1 и W2, и добавляет свободный член C. Итого, на выходе нейрона (обозначим его за Y) получаем: Y=X1*W1+X2*W2+C (опустим пока тонкости про сигмоидальные функции) Считаем, что нейрон срабатывает, когда Y>0. Прямая, заданная уравнением 0=X1*W1+X2*W2+C как раз и делит пространство на часть, где Y>0, и часть, где Y Проиллюстрируем сказанное конкретными числами. Пусть W1=1, W2=1, C=-5; Теперь посмотрим, как нам организовать нейронную сеть, которая бы срабатывала на некоторой области пространства, условно говоря – пятне, и не срабатывала во всех остальных местах. Из рисунка видно, что для того, чтобы очертить область в двумерном пространстве, нам потребуется по меньшей мере 3 прямых, то есть 3 связанных с ними нейрона. Эти три нейрона мы объединим вместе при помощи ещё одного слоя, получив многослойную нейронную сеть (MLP). А если нам нужно, чтобы нейронная сеть срабатывала в двух областях пространства, то потребуется ещё минимум три нейрона (4,5,6 на рисунках): И тут уж без третьего слоя не обойтись: А третий слой – это уже почти Deep Learning… Теперь обратимся за помощью к ещё одному примеру. Пусть наша нейронная сеть должна выдавать положительный ответ на красных точках, и отрицательный – на синих точках. Если бы меня попросили отрезать прямыми красное от синего, то я бы сделал это как-то так: Но нейронная сеть априори не знает, сколько прямых (нейронов) ей понадобится. Этот параметр надо задать перед обучением сети. И делает это человек на основе… интуиции или проб и ошибок. Если мы выберем слишком мало нейронов в первом слое (три, например), то можем получить вот такую нарезку, которая будет давать много ошибок (ошибочная область заштрихована): Но даже если число нейронов достаточно, в результате тренировки сеть может «не сойтись», то есть достигнуть некоторого стабильного состояния, далёкого от оптимального, когда процент ошибок будет высок. Как вот здесь, верхняя перекладина улеглась на два горба и никуда с них не уйдёт. А под ней большая область, порождающая ошибки: Снова, возможность таких случаев зависит от начальных условий обучения и последовательности обучения, то есть от случайных факторов: Есть ещё один неприятный момент, связанный с нейронными сетями. Их «забывчивость». Если начать скармливать сети только синие точки, и перестать скармливать красные, то она может спокойно отхватить себе кусок красной области, переместив туда свои границы: Если у нейронных сетей столько недостатков, и человек может провести границы гораздо эффективнее нейронной сети, зачем же их тогда вообще использовать? А есть одна маленькая, но очень существенная деталь. Я очень хорошо могу отделить красное сердечко от синего фона отрезками прямых в двумерном пространстве. Я неплохо смогу отделить плоскостями статую Венеры от окружающего её трёхмерного пространства. Но в четырёхмерном пространстве я не смогу ничего, извините. А в 13-мерном — тем более. А вот для нейронной сети размерность пространства препятствием не является. Я посмеивался над ней в пространствах малой размерности, но стоило выйти за пределы обыденного, как она меня легко уделала. Тем не менее вопрос пока открыт – насколько оправдано применение нейронной сети в данной конкретной задаче, учитывая перечисленные выше недостатки нейронных сетей. Забудем на секунду, что наши MFCC-коэффициенты находятся в 13-мерном пространстве, и представим, что они двумерные, то есть точки на плоскости. Как в этом случае можно было бы отделить один звук от другого? Пусть MFCC-точки звука 1 имеют среднеквадратическое отклонение R1, что [грубо] означает, что точки, не слишком далеко отклоняющиеся от среднего, наиболее характерные точки, находятся внутри круга с радиусом R1. Точно так же точки, которым мы доверяем у звука 2 находятся внутри круга с радиусом R2. Внимание, вопрос: где провести прямую, которая лучше всего отделяла бы звук 1 от звука 2? Напрашивается ответ: посередине между границами кругов. Возражения есть? Возражений нет.Исправление: В программе эта граница делит отрезок, соединяющий центры кругов в соотношении R1:R2, так правильнее. Далее, представим, что звука три. В этом случае проведём границы между каждой парой звуков. И, наконец, не забудем, что где-то в пространстве есть точка, которая является представлением полной тишины в MFCC-пространстве. Нет, это не 13 нулей, как могло бы показаться. Это одна точка, у которой не может быть среднеквадратического отклонения. И прямые, которыми мы отрежем её от наших трёх звуков, можно провести прямо по границам окружностей: На рисунке ниже каждому звуку соответствует кусок пространства своего цвета, и мы можем всегда сказать, к какому звуку относится та или иная точка пространства (или не относится ни к какому): Ну, хорошо, а теперь вспомним, что пространство 13-мерное, и то, что было хорошо рисовать на бумаге, теперь оказывается тем, что не укладывается в человеческом мозгу. Так, да не так. К счастью, в пространстве любой размерности остаются такие понятия, как точка, прямая, [гипер]плоскость, [гипер]сфера. Мы повторяем все те же действия и в 13-мерном пространстве: находим дисперсию, определяем радиусы [гипер]сфер, соединяем их центры прямой, рубим её [гипер]плоскостью в точке, равно отдалённой от границ [гипер]сфер. Никакая нейронная сеть не сможет более правильно отделить один звук от другого. Здесь, правда, следует сделать оговорку. Всё это справедливо, если информация о звуке – это облако точек, отклоняющихся от среднего одинаково во всех направлениях, то есть хорошо вписывающееся в гиперсферу. Если бы это облако было фигурой сложной формы, например, 13-мерной изогнутой сосиской, то все приведённые выше рассуждения были бы не верны. И возможно, при правильном обучении, нейронная сеть смогла бы показать здесь свои сильные стороны. Но я бы не рисковал. А применил бы, например, наборы нормальных распределений (GMM), (что, кстати и сделано в CMU Sphinx). Всегда приятнее, когда ты понимаешь, какой конкретно алгоритм привёл к получению результата. А не как в нейронной сети: Оракул, на основе своего многочасового варения бульона из данных для тренировки, повелевает вам принять решение, что запрашиваемый звук – это звук №3. (Меня особенно напрягает, когда нейронной сети пытаются доверить управление автомобилем. Как потом в нестандартной ситуации понять, из-за чего машина повернула влево, а не вправо? Всемогущий Нейрон повелел?). Но наборы нормальных распределений – это уже отдельная большая тема, которая выходит за рамки этой статьи. Надеюсь, что статья была полезной, и/или заставила ваши мозговые извилины поскрипеть. 65 12.1k 65

В прошлом году Яндекс представил виртуального ассистента Алису, которая сразу обзавелась особым званием среди всех голосовых помощников. Каким? Королева развлечений! Если вы хотите узнать, почему ее так называют, а также познакомиться с широким арсеналом её полезных команд, то скорее приступайте к чтению этой статьи!

Но сначала не забудьте установить приложения от Яндекса, в которых есть Алиса.

Яндекс Поиск

Яндекс — с Алисой Платформа: Android Цена: Бесплатно The app was not found in the store. 🙁

Яндекс Браузер

Яндекс.Браузер — с Алисой Платформа: Android Цена: Бесплатно The app was not found in the store. 🙁

Общие команды по категориям

Навигация

Голосовой помощник Яндекс поможет вам добраться до нужной точки лучшим путем. Ну или подскажет, где вы сейчас, если решили, что справитесь без навигатора. Команды:

  • Сколько ехать до работы?
  • Как добраться до торгового центра?
  • Где я?

Новости

Алиса следит за всеми происшествиями в мире, поэтому расскажет вам обо всём, только попросите.

Команды:

  • Расскажи последние новости
  • Расскажи новости политики
  • Какие новости в мире?

Музыка

Если вы не представляете выхода из дома без наушников, то голосовому помощнику есть что вам предложить.

Команды:

  • Включи новогоднюю музыку
  • Включи “LSD” Asap Rocky
  • Включи рок музыку
  • Что сейчас играет?
  • Включи спортивный плейлист

Пробки

Никто не любит пробки, поэтому лучше узнать о них пораньше. Желательно до момента попадания в одну из них. Команды:

  • Какая ситуация на дорогах?
  • Какие сейчас пробки?

Будильники

У них, как и у пробок, тоже мало поклонников, но современному человеку без будильника не обойтись.

Команды:

  • Покажи список будильников
  • Поставь будильник на 6 утра
  • Заведи будильник по субботам

Таймер

Голосовой помощник с удовольствием засечет для вас время.

Команды:

  • Поставь таймер на 15 минут
  • Покажи список таймеров

Номера

У Алисы есть свой огромный телефонный справочник. Как иначе объяснить то, что она знает все номера?

Команды:

  • Какой телефон налоговой?
  • Номер скорой помощи
  • Телефон доверия

Поиск в интернете

На любой вопрос у голосового помощника Яндекс найдутся ответы.

Команды:

  • Расстояние до Марса
  • Кто такой Фредди Меркьюри?
  • Сколько варить спагетти?

Места

Приехали на встречу слишком рано? Потратьте сэкономленное время на чашечку кофе поблизости.

Команды:

  • Где тут рядом кафе?
  • Найди кино рядом

Сайты и приложения

В свободное время Алиса сёрфит в интернете, поэтому она знает адреса всех сайтов и откроет для вас любое приложение.

Команды:

  • Открой Вконтакте
  • Перейди на YouTube
  • Открой Skype

Деньги

Собрались в другую страну? Узнайте, сколько валюты вы можете приобрести.

Команды:

  • Какой курс евро?
  • 150 долларов — сколько в рублях?
  • Сколько стоит нефть?
  • Биткоин в долларах

Калькулятор

Алиса умеет считать не только деньги, но и всё остальное.

Команды:

  • 33 умножить на 15
  • Факториал 9
  • Сколько будет 150 разделить на 8?

Погода

Если с утра на небе ни облачка, то это не значит, что днем не будет дождя. Узнайте от Алисы, нужно ли брать зонт.

Команды:

  • Какая сегодня погода?
  • Тепло ли сейчас в Москве?
  • Какая погода на выходных?

Такси

Задержались в гостях? Алиса легко вызовет вам Яндекс.Такси, нужно только уточнить куда ехать.

Команды:

  • Вызови такси домой
  • Закажи такси до Ленина, 12
  • Закажи такси до Домодедова

Время

Скоро лететь в другой город, а вы не знаете на сколько переводить часы? Алиса подскажет.

Команды:

  • Сколько сейчас времени в Нью-Йорке?
  • Точное время в Санкт-Петербурге
  • Сколько сейчас времени?

Календарь

Если в отпуске вы забыли, какое сегодня число, то вы счастливый человек. Но узнать дату всё же стоит.

Команды:

  • Какой сегодня день?
  • Пятница — это 10 число?
  • Суббота — это какое число?

Подарки

Алиса, как и все девушки, очень любит всё, что связано с подарками, поэтому поможет выбрать лучший.

Команды:

  • Посоветуй подарок
  • Помоги с выбором подарков

Тост

Алиса посетила достаточно праздников, чтобы теперь выдавать самые лучшие тосты на застольях.

Команды:

  • Скажи тост
  • Скажи тост за Новый год
  • Скажи тост за роботов

Прикольные команды Алисы

Секреты блогеров

  • Давай обсудим секреты блогеров
  • Расскажи секреты блогеров

Юмор

Чего-чего, а любви к общению у Алисы не отнять. Если у вас выдалась свободная минутка, то вы можете поднять себе настроение, поговорив с голосовым помощником.

Команды:

  • Расскажи анекдот
  • Прочитай стих
  • Расскажи сказку
  • Спой песню
  • Одолжи денег
  • Давай поболтаем
  • Ты меня любишь?
  • Как у тебя дела?

Игры

Алиса знает просто невероятное количество игр, с ней вы точно не соскучитесь.

Для запуска режима достаточно сказать “Давай сыграем в”, а затем озвучить одно из следующих названий:

  • Угадай число
  • Виселица
  • Угадай животное
  • Загадки
  • Быстрее, выше, сильнее
  • Угадай песню
  • Футбольная игра
  • Найди лишнее
  • Шар судьбы
  • Гадание
  • Угадай актера
  • Слова
  • Города
  • Что было раньше
  • Квест
  • Зоология

Теперь вы понимаете, почему Алиса — лидер среди голосовых помощников в плане развлечений. К тому же, она постоянно обновляется, поэтому этот список может расширяться. Узнать обо всех нововведениях ассистента Яндеса вы всегда сможете на нашем сайте.

Если вы открыли еще какие-то команды Алисы, то пишете их в комментариях — всем будет интересно!

ОСТАВЬТЕ ОТВЕТ

Please enter your name here
Please enter your comment!