Введение
Во время прошедших десяти лет не раз поднимался вопрос о технологиях распознавания голоса, и точно так же про него забывали, поскольку большинство подобных технологий работало не очень хорошо. Предметом гордости программ по распознаванию являлось управление голосом в Windows и диктовка в Microsoft Word, однако после тщетных многочасовых попыток “научить” программу, в конечном итоге пользователь возвращался к привычному для него способу набивки текста на клавиатуре. В этой статье мы постараемся рассмотреть современные технологии распознавания, оценить их полезность в Windows XP и обозреть перспективы технологий распознавания речи.
Все началось с военных исследований
Свое происхождение технологии распознавания речи ведут с конца 1940-х годов, когда Министерство обороны США проявило интерес и поддержало первые инициативы по разработке оборудования для распознавания речи. Цель подобной технологии состояла в разработке новых способов шпионажа, что несколько удалено от сегодняшней коммерческой эксплуатации. В следующие тридцать лет различные компании типа Bell Laboratories разработали коммерческое направление использования программ по распознаванию речи. Были разработаны программы, которые смогли различать основные сигнальные слова и цифры, от нуля до девяти. Однако тогда для этого не существовало достаточной вычислительной мощности.
По мере огромного роста вычислительной мощности компьютеров, выросло и число игроков на этом рынке. Две наиболее крупные компании, работающие с технологией распознавания речи, это IBM и Dragon Speaking. Обе компании вложили большие средства и время в разработку этой технологии для различных применений; в частности, для программ диктовки – преобразования речи в голос.
Наконец, и коммерческие фирмы стали проявлять интерес к технологиям распознавания речи, которые все чаще и чаще используются в различных приложениях. Однако многие клиенты находят подобные системы слишком сложными в использовании, неудобными и отнимающими время, к тому же, уровень ошибок пока еще очень велик.
Если вас интересует более детальная информация, то вы можете обратиться к Истории распознавания речи.
Как все работало раньше?
Мы помним те годы, когда технологии распознавания речи были “на коне”. Вышло много программ, наиболее популярными из которых стали IBM Simply Speaking Gold и продукты Naturally Speaking. Однако эти программные технологии не смогли обеспечить того, чего от них ожидали: интеллектуального распознавания речи в удобочитаемый текст. Время, потраченное на “тренировку” программы, не могло заметно улучшить качество распознавания. После диктовки пользователь получал текстовые строчки, часто представляющие собой бессмысленный и несогласованный текст. Подобные технологии работали не слишком хорошо, и вряд ли их можно было использовать вообще.
Что у нас есть сегодня?
С момента выхода Simply Speaking Gold, Dragon Naturally и других несчастных продуктов по распознаванию речи уже прошло несколько лет. Однако в последнее время произошло несколько существенных улучшений. Рост производительности вычислительных устройств, совершенствование технологий снижения шума и более четкой передачи сигналов от микрофона значительно улучшили результат программ по распознаванию речи. Выросшая вычислительная мощность позволяет обрабатывать речевые сигналы в реальном времени, остальные технологии помогают более четко разделять слова и слоги.
SoundMax Cadenza
Analog Devices – это компания, специализирующаяся на высокопроизводительных аналоговых, смешанных и цифровых схемах, использующихся при обработке сигналов. Ну а что это дает нам? Analog Devices представили свое аппаратное решение по распознаванию речи – SoundMax Cadenza. Среди многих своих функций, SoundMax Cadenza обеспечивает надежное и эффективное распознавание речи для отдачи голосовых команд, речевого заполнения данных и диктовки, а также для телефонии VoIP и PSTN. SoundMax Cadenza интегрируется на материнскую плату и выдает качественный звук, на уровне более дорогих PCI карт (типа Sound Blaster Live). Чип поддерживает шестиканальный звук, благодаря трем двухканальным выводам на материнской плате.
Специальный микрофон Superbeam?
С SoundMax Cadenza поставляется микрофон Superbeam от Andrea. Он представляет собой стерео микрофон, подключающийся к соответствующему входу сзади компьютера. Микрофон заключен в пластиковый корпус и прекрасно размещается на любой поверхности, скажем, на мониторе вашего компьютера. Микрофон Andrea Superbeam поддерживает технологию снижения шума от Andrea, что довольно существенно.
Установка распознавания речи под XP
Распознавание речи встроено в операционную систему? Чудес не бывает? Найти соответствующий значок в панели управления довольно легко, так что мы не будем пояснять очевидные шаги. Но на всякий случай приведем иллюстрацию:
После нажатия на иконку речи (speech) появится окно настройки речи. В нем присутствуют различные опции.
Клавиша “Audio Input” позволяет вам выбирать устройство ввода звука, которое будет выполнять функцию микрофона. Очевидно, здесь лучше выбрать “Microphone”. Кнопка настройки микрофона “Configure Microphone” позволяет вам подстроить уровень микрофона под громкость вашей обычной речи. Важно, чтобы компьютер слышал ваши команды на нормальной громкости.
Затем мы должны создать свой профиль по распознаванию речи. В процессе создания профиля вы пройдете через несколько шагов, первым из которых является шаг по настройке микрофона. После завершения создания профиля вам предстоит процесс тренировки системы распознавания под вашу речь. Сначала “учитель” задаст вам вопросы о вашем поле и возрасте. Затем вы перейдете к процессу собственно тренировки, где вы должны будете прочитать текст, разделенный на параграфы. Как только вы завершите каждый параграф, программа перейдет на следующий экран. Процесс занимает примерно десять минут. После завершения, вы можете вернуться в панель управления в любое время и продолжить тренировку системы распознавания с помощью зачитывания различных текстов.
Диктовка в Microsoft Word
После того, как вы создали новый профиль и настроили микрофон, вы сможете наслаждаться голосовыми командами управления, равно как и диктовкой. Голосовое управление позволяет вам контролировать Microsoft Word и прочие программы с помощью вашего голоса. Вы сможете переходить по меню, форматировать текст, произносить команды (открыть файл, записать, выйти и т.д.). С помощью диктовки можно преобразовывать вашу речь в текст.
В меню “Tools” Microsoft Word находится пункт “Speech” (в русской версии Word распознавание речи невозможно). При его выборе Word запустит тренировку, которую вы уже видели. Вы сможете отменить ее или пройти еще раз для более уверенного распознавания. Затем появится Speech Toolbar. Она позволяет вам настраивать микрофон, а также переключаться между режимами голосовых команд и диктовки.
Как распознавание работает под Windows XP и MS Office?
Как показало наше тестирование, SoundMax Cadenza вкупе с микрофоном Andrea Superbeam являются одним из лучших, если не лучшим, средством распознавания голоса под Windows XP. С использованием 2,26 ГГц Pentium 4 мы достигли впечатляющих результатов, которые дают пользователю наглядное представление о потреблении вычислительной мощности современных процессоров. Настройка вашего голосового профиля и микрофона не вызывает никаких проблем. На тренировку следует потратить некоторое время, но обычно оно не превышает получаса.
Голосовое управление отлично работает. Голосовая отдача команд Microsoft Word и Media Player оказалось полезной, впечатляющей и даже забавной, если только ваши родственники не будут крутить пальцем вокруг виска, проходя мимо человека, разговаривающего с компьютером. Меню можно открывать, просто называя его. Пункты меню запускаются при их упоминании, или, если вы ленивый человек, при произнесении их ключевой буквы. Голосовое управление отличается высокой интуитивностью, и вы сможете эффективно использовать его после небольшого периода привыкания. В общем, голосовое управление заслужило свое право на жизнь и может использоваться параллельно с обычным.
Однако, реализация диктовки с помощью движка Windows XP/MS Office – несколько иная история. И хотя производительность и эффективность диктовки возросли, она все еще не может заменить человека, который может быстро набирать. Пока еще эта технология не достигла желаемой аккуратности распознавания. Впрочем, здесь есть и положительные моменты. За прошедшие несколько лет технология распознавания речи подверглась существенным улучшениям. Ошибки чаще всего возникают в длинных словах, в словах с различными вариантами произношения, или в словах, по звуку напоминающих другие слова.
Поскольку у нас нет программ по измерению производительности распознавания речи Microsoft Office, пришлось все считать вручную. Аккуратность составила 82% при использовании системы понижения шума. Без такой системы, аккуратность составила примерно 73%. Тесты производились в обычном жилом помещении, при наличии посторонних шумов. Так что производительность системы распознавания может быть выше или ниже, в зависимости от уровня окружающего шума.
Использование Dragon Naturally Speaking Version 6
Для проверки работы SoundMax Cadenza на другом речевом движке, мы протестировали производительность Dragon Naturally Speaking Version 6. Измерение производительности осуществлялось с помощью Rapmeter от General Voices Technologies. Rapmeter измеряет аккуратность и время реакции движка на речь пользователя. Мы не смогли использовать Rapmeter совместно с системой распознавания Windows XP/MS Office, поскольку мы не смогли заставить их работать совместно.
Настройка Dragon Naturally Speaking очень похожа на настройку речевой системы Windows XP/MS Office. Вы должны указать уровень микрофона и пройти через схожую систему тренировки. Самое большое отличие между системой распознавания Windows XP и Dragon заключается в том, что диктовка Dragon может работать с любым приложением, имеющим поле текстового ввода, в то время как Windows XP может работать только с поддерживаемыми приложениями (то есть с MS Word, Windows Media Player, Internet Explorer). Dragon также показывает громкость вашей речи на специальной панели. Если на панели появляется красный цвет, то вы говорите слишком громко.
SoundMax Cadenza совместно с Soundbeam микрофоном показала хорошие результаты под Dragon Naturally Speaking. Без системы снижения шума аккуратность составила 78,67%, а время реакции на слово – 1,46 с. С системой понижения шума – 89,33% аккуратности и 1,49 с – время реакции на слово. Таким образом, при включении системы понижения шума, вы уже реально сможете использовать диктовку.
Вновь повторим, что все тесты производились в обычном жилом окружении. Производительность вашей системы может быть ниже или выше, в зависимости от постороннего шума.
Использование ресурсов компьютера
Параллельно с проверкой различных функций распознавания речи на Windows XP, мы непрерывно замеряли нагрузку на процессор и память. Сначала мы проверили использование голосовых команд в Microsoft Word. Мы несколько раз прошлись по различным пунктам меню для нахождения среднего значения использования процессора. Во время произнесения речи нагрузка на процессор поднималась до 20-25% для каждого слова. Подобная система ожидания команды оказывается более эффективной по сравнению с программами, которые постоянно отнимают мощность процессора во время ожидания команды пользователя. В нашем же случае системы задействовала процессор только лишь при начале диктовки.
Второй тест мы провели для выявления использования ресурсов при диктовке в Microsoft Word. В отличие от функции голосового управления, нагрузка на процессор заметно не снижалась и всегда находилась между 17% и 23% (в это время слова не произносились). Когда же мы начали диктовку, нагрузка на процессор поднималась до значения от 30% до 70%, и иногда даже достигала 100%. Впрочем, подобная нагрузка вряд ли приведет к каким-либо проблемам, поскольку во время диктовки с бумаги вы наверняка не будете работать с другими приложениями.
Измерение нагрузки с Dragon Naturally Speaking привело к подобным результатам.
Заключение
Мечта в получении идеального (или почти идеального) качества распознавания речи существует уже долгое время, но только лишь недавно мечта стала превращаться в реальность. Стала ли она уже реальностью? Нет. Движемся ли мы в правильном направлении? Да. В статье мы уже обсудили некоторые улучшения, при этом SoundMax разработала качественный инструмент распознавания речи. В зависимости от работы под встроенной системой распознавания речи в Windows XP/MS Office или под системой распознавания третьего производителя, аккуратность, простота использования и эффективность могут различаться. В нашем тестировании мы обнаружили, что система распознавания Windows XP проигрывает Dragon Naturally Speaking на SoundMax Cadenza.
На сегодняшний день технология распознавания речи остается одной из самых впечатляющих. При этом мы рекомендуем совместное использование технологий SoundMax.
Конфигурация тестовой системы
Аппаратное обеспечение | |
Процессор | Intel Pentium 4 2.26 GHz (533MHz) |
Память | 2 x 256 MB, DDR266 |
Видеокарта | ATI Radeon 9000 Pro |
Материнская плата | Intel D845EBT Blue Mountain |
Звук | SoundMAX Cadenza |
Драйверы и ПО | |
Видео драйвер | NVIDIA GeForce2 MX200 |
Версия DirectX | 8.1 |
MS Word | Office XP |
Dragon Naturally Speaking | Version 6 |
OS | Windows XP Professional |
Тесты и настройки | |
General Voices RAPMeter | Retail Version V1.0 |