helios3 (helios3) wrote,
helios3
helios3

Category:

Про бесполезность голосового управления, часть 1.

Эволюция устройств ввода идет на планете весьма причудливым путем. Впрочем, насколько я знаю, она почти везде так идет на соответствующем этапе развития. Это такой вид эволюции, где лучший побеждает лишь изредка. Ведь из двух устройств ввода следует считать лучшим то, которое способно передать компьютеру наибольший объем информации при наименьших усилиях пользователя. Однако, эти усилия - величина переменная и зависят от подготовленности самого пользователя.

Например, какова скорость ввода с клавиатуры такой-то модели? Очевидно, что это бессмысленный вопрос, а потому говорить нужно о скорости ввода того или иного человека. Разброс будет весьма порядочным, причем дословно, то есть, легко составит целый порядок. И как при этом оценить, хороша ли сама клавиатура? Не эта конкретная, а вообще, данный тип устройств ввода.

А главное, что будет лучше, клавиатура, или голосовой набор? Я вот печатаю быстрее, чем диктую, а с учетом необходимости правки неидеального распознавания, выходит значительная экономия времени. А человеку, который ищет каждую букву, могло бы показаться быстрее надиктовать, а затем откорректировать текст. Можно, конечно, сделать тривиальный вывод о том, что для разных людей хороши разные устройства.

Однако, речь обычно идет не об индивидуальных особенностях пользователей, обусловленных их вкусами, привычками или темпераментом. Речь идет о подготовленности. Ведь когда победила клавиатура, учиться печатать пришлось всем. А когда пришла мышь, всем точно также пришлось её осваивать. Кстати, это довольно сложный процесс для многих, я знаю, я обучал компьютерной грамотности с нуля. Люди иногда убивают по 30-40 минут только на то, чтобы освоить двойной клик. Зато потом получают быстрый интерфейс для отдачи команд компьютеру. Частью какового интерфейса являются они сами.

В этом плане голосовое управление потенциально является наилучшим из доступных. Ему вообще не надо учиться, а если всё же усовершенствовать алгоритм и убрать все или почти все ошибки распознавания, будет вообще красота. Не нужно ничего осваивать, напрягать руки и зарабатывать туннельный синдром. Можно просто сказать компьютеру всё необходимое. Что же касается скорости, то вот лично моя скорость печати для меня избыточна. Например, написание поста, вроде этого, занимает у меня не меньше часа, хотя набить текст такого же размера я мог бы за несколько минут. Я же не машинистка, перепечатывающая рукописи, я этот текст ещё и создаю перед тем, как начать нажимать куда попало.

Однако, есть один нюанс. Скорость передачи информации очень сильно зависит от возможностей принимающей стороны. А именно, от её возможностей к декодированию данной информации. Простейший пример: вы можете передать архив, сэкономив время на пересылку, но только в том случае, если на другой стороне есть возможности для распаковки. С голосовыми командами ещё интереснее. Компьютер сейчас, по сути, способен воспринимать только определенные распоряжения. Мне даже давали ссылку на небольшую шпаргалку по ним.

Выходит, нужно знать эти команды, потому что другие компьютер просто не поймет. А учитывая бесцеремонность земного софта, всё сильнее входящую в моду с годами, он, скорее всего, их поймет, но неправильно. И сделает что-нибудь непредсказуемое. Но если голосовое управление требует подготовки, то уничтожается его главное преимущество - нулевой порог входа. А тогда голосовое управление сохраняет преимущество лишь на мобильных устройствах. Вы, кстати, знаете, что голосовой поиск Google можно использовать и на стационарных машинах? Многие знают, но почти никто им не пользуется, когда под рукой есть полноразмерные и привычные устройства ввода.

Кстати, я только что попробовал. И хочу ещё раз сказать про полную непредсказуемость результата. Как я понял, распознавание голоса работает из рук вон плохо, и полученную запись Google интерпретирует во множество возможных вариантов текстовой фразы, а затем принимает за ту, которая наиболее распространена. У меня, насколько мне известно, нет проблем с дикцией, а говорил я своим обычным, да ещё и неторопливым голосом. Однако "принцип ненападения" был расшифрован как "преступное поведение". Ещё бы, второй термин люди гуглят куда чаще. А вместо квадратного корня из 2196 мне был выдан корень, но из 2000, потому что после слов "двух тысяч" машина решила дальше не слушать, по каким-то своим, глубоко личным причинам. Пауз в диктовке я не делал. Полагаю, ко всему этому можно приноровиться, но тогда порог входа у данного метода ввода получится ещё выше.

И есть ещё одна проблема с голосовым управлением. Если представить, что компьютер способен безошибочно интерпретировать звуки в текст, то что он будет делать с данным текстом дальше? Если это поисковый запрос, проблемы не возникает, а если это именно команда? Я не зря указал темой поста не голосовой ввод, а именно голосовое управление. Но список команд ограничен, если его увеличивать, вместе с ним опять вырастет порог входа. А главная проблема даже не в этом, а в том, что большинство команд можно было бы вложить в машину (пусть даже путем составления огромного словаря команд), но машина не способна выполнить эти команды.

Точнее, не так. Машина, в принципе, способна выполнить любую команду пользователя. Однако, для выполнения многих из них у неё просто нет программного обеспечения. А писать его сама она не умеет. Простой пример запроса, который сейчас будет, в лучшем случае, перенаправлен в поисковую строку: "Посчитай количество зданий в Центральном округе Москвы". И если на этот вопрос готовый ответ ещё может существовать, а, значит, решение обратиться в базу индексированной информации может быть оправдано, то как вам еще один пример - "Поставь точку на карте вот тут. Вычерти от неё круг с радиусом 1200м. Посчитай количество зданий, полностью находящихся внутри окружности".

Согласитесь, для такой задачи необходима специальная программа, а учитывая возможное количество подобных задач, написать все программы, которые могли бы понадобиться, если и представляется возможным, то уж точно не представляется целесообразным. Для этого нужны уже совсем другие компьютеры. О них и поговорим в следующий раз. Большой пост получается, даже не ожидал в этот раз.

Subscribe

  • Альтернативный мысленный поток

    Всех нас постоянно носит мысленным потоком. Лишние мысли пожирают горы ресурсов. Многие об этом знают. Некоторые даже пытаются что-то делать.…

  • Боты

    Em Am Ехали в метро возвращались с работы Em H С сумками тележками бутылками боты Развернулась ночь сожрала их останки Воскресали боты наверх…

  • Квинты. Анонс биржи генераторов.

    Публикую ролик с анонсом глобального изменения в квинт-системе. Как и обещал, о квинтах буду писать изредка — только когда повод того стоит.…

promo helios3 march 12, 2014 13:22 2
Buy for 100 tokens
Это программный пост, я давно хотел его написать. Я знаю, что многим из вас не нравится реклама в жж, но должен сказать, что я этого мнения не разделяю. Я убежден, что любая деятельность, которую можно монетизировать, должна монетизироваться, ведь это самый эффективный способ сделать её лучше и…
  • Post a new comment

    Error

    default userpic

    Your IP address will be recorded 

    When you submit the form an invisible reCAPTCHA check will be performed.
    You must follow the Privacy Policy and Google Terms of use.
  • 10 comments

  • Альтернативный мысленный поток

    Всех нас постоянно носит мысленным потоком. Лишние мысли пожирают горы ресурсов. Многие об этом знают. Некоторые даже пытаются что-то делать.…

  • Боты

    Em Am Ехали в метро возвращались с работы Em H С сумками тележками бутылками боты Развернулась ночь сожрала их останки Воскресали боты наверх…

  • Квинты. Анонс биржи генераторов.

    Публикую ролик с анонсом глобального изменения в квинт-системе. Как и обещал, о квинтах буду писать изредка — только когда повод того стоит.…