Новости
16 февраля В BMW встроят iPhone?
Главная / Статьи / Техника в жизни / С компьютером на "ты"

С компьютером на "ты"

Еще в далеком 1968 году кинофильм «Космическая одиссея 2001 года» продемонстрировал суперкомпьютер HAL 9000 способный не только общаться на человеческом языке, но даже читать по губам. Однако спустя 40 лет реальность, представленная фантастами, так до конца и не воплотилась в жизнь. Люди все еще щелкают по клавиатуре и кликают мышью, потому что IT-индустрия пока не предложила надежного способа интерактивного общения с компьютером, а существующие программы допускают слишком много ошибок, чтобы быть в состоянии заменить привычные манипуляторы.


А как было бы комфортно воздеть очи к потолку и, продекламировав несколько стихотворных строф, скомандовать «сохранить» и «отправить» по электронной почте. Ведь в повседневной жизни люди выражают свои мысли преимущественно вербально, а значит, пользователь получает наибольший эффект погруженности в виртуальную среду, когда использует самую удобную для него форму коммуникации - голос. К тому же, подсчитано, что набор текста размером 900 слов занимает около 22 минут, в то время как с помощью программы распознавания речи его диктовка длится около 6 минут.


Современное ПО для распознавания речи выполняет три основные функции - это запись голоса печатным текстом, голосовое управление программами и озвучивание печатного текста. Сегодня существует множество пользовательских программ распознавания речи, среди которых одной из старейших и наиболее популярной является Dragon NaturallySpeaking производства компании Dragon Systems. Это программа с минималистским интерфейсом, в которой диктуемые слова появляются в контекстном окне по мере их произнесения. Когда спикер делает паузу, программа транскрибирует слова, помещая их в место расположения курсора в текстовом редакторе.


На компьютерах Macintosh и ПК под управлением Windows XP предустановленна система распознавания речи, которая еще пока не позволяет полностью отказаться от клавиатуры и мыши, но в комбинации с ними существенно упрощает управление компьютером. А пробная версия утилиты Windows Speech Recognition Macros для Vista обещает в ближайшее время усовершенствоваться стараниями разработчиков и потеснить механические средства ввода информации.

 

Технологии распознавания речи также используются для управления мобильной и бытовой техникой, но к контролю за сложными производственными процессами они пока не допущены. Они могли бы стать незаменимы при протоколировании выступлений, когда помимо быстроты требуется скрупулезная точность письменного изложения. Средняя скорость человеческой речи составляет около 130 слов в минуту, и хотя самые быстрые наборщики печатают со скоростью до 160 слов в минуту, программы распознавания речи могли бы справиться с этой задачей эффективнее, если бы обладали большей точностью.

 

Сложность использования технологии распознавания речи в том, что в отличие от традиционных механических форм ввода информации, позволяющих получить точно определенный отклик на адекватную команду, человеческий голос очень неточен ввиду уникальности и изменчивости интонации, особенности акцентирования, произношения и модуляции. Поэтому программа часто затрудняется с определением точного значения устной команды.

 

К решению этой проблемы было предпринято два подхода с разной степенью успеха. Так, ПО раннего поколения были построены на принципе идентификации слов путем сопоставления речевых шаблонов. Но поскольку голос каждого человека уникален, программа не может предварительно содержать шаблон для каждого потенциального пользователя, и поэтому ее нужно приучать к голосу каждого нового пользователя. Этот метод сопоставления представляет собой простейшую «зависимую от диктора» технологию.

 

Во время тренировки программа демонстрирует печатные слова или фразы, которые пользователь озвучивает несколько раз, затем чтобы они были оцифрованы и сохранены в базе данных, и им было присвоено определенное значение. Впоследствии для того чтоб расшифровать значение введенного слова компьютер сопоставляет его с оцифрованной записью содержащейся в базе данных. Таким образом, программа собирает словарь, ограниченный словами, произнесенными во время тренировки, а набор пользователей ограничен теми, кто тренировал программу. На каждую такую тренировку затрачивается около десяти минут. Словарный запас таких программ составляет всего несколькими сотен слов, но точность распознавания достигает 98%.

 

Другой, более современный, способ распознавания речи заключается в использовании «независимой от диктора» технологии, которая построена на анализе речевых особенностей. Вместо того чтобы искать точный или близкий аналог слова в базе данных, программа обрабатывает голос, находя характерные сходства между ожидаемым вводом и фактически произнесенными словами. Эти сходства актуальны для множества ораторов, и поэтому программу не нужно тренировать. Такие программы можно использовать при коммутации телефонных переговоров и автоматизации работы разных публичных сервисов. Но эта технология все же не может охватить весь диапазон возможных голосовых отличий. Точность распознавания речи у таких программ ниже чем у аналоговых, и составляет порядка 90 - 95%.



Другая проблема программ распознавания речи - их способность понимать как отдельные, так и слитно произнесенные слова, словосочетания или непрерывную речь. «Однословные» программы в большей степени застрахованы от ошибок. Ввиду их простоты они имеют более широкое распространение и применяются для ввода простых команд. В наши дни производители работают над усовершенствованием алгоритма распознавания непрерывной речи, а также над проблемой распознавания слов звучащих одинаково, но имеющих разное значение. Для этого программа должна уметь вычислять смысл слов в контексте, а также отличать голос диктора от посторонних шумов, таких как лай собак, визг резвящихся детей или гомон коллег. Поэтому пока что пользователи вынуждены следить за произношением, не проглатывая окончания и делая промежутки между словами. Но не за горами те времена, когда компьютеры начнут понимать нас с полуслова.

Автор: Андрей Оботе
17 июня 2008
Lumalive:  LED-краски в движении

Lumalive: LED-краски в движении
Цифровое будущее холодильника

Цифровое будущее холодильника