Материал для тестирование систем распознавания речи. Слова, не входящие в словарь

Финансовые рынки обладают свойством создавать модели, которые нередко предвещают дальнейшее направление движения. Ценовые модели формируются из сочетаний последовательных пиков и впадин, при этом у каждой фигуры есть свой механизм образования и определенная графическая форма. Динамика объема сделок выступает подтверждающим фактором существования определенной модели. Все модели находят объяснение с точки зрения психологии участников рынка.
Графический метод является одним из основных приемов распознавания ценовых моделей. Отметим, что критерии определения той или иной фигуры расплывчаты, все сигналы воспринимаются субъективно, классические методы хаотичны, Б них не прослеживается строгой системы. Несмотря на недостатки, графические методы полезны для практического применения и служат основой для проведения серьезного технического анализа.
Распознавание графических моделей и их анализ - трудоемкое занятие, отнимающее много времени у трейдера. Даже самый опытный инвестиционный аналитик, имеющий в своем распоряжении лучшее программное обеспечение, может отслеживать от 50 до 75 ценных бумаг в день. Это слишком мало, если учитывать масштабы мировых фондовых рынков.
Не обладая полной информацией о ценовых моделях, технический аналитик будет продолжать упускать многочисленные торговые возможности. Инвесторам необходим быстрый, простой и своевременный доступ к информации о сформировавшихся графических моделях по большому количеству финансовых инструментов с целью повышения эффективности торговли. В последнее время все большее распространение получают
программы автоматического распознавания мартов - CPR (Chart Pattern Recognition).
Система Recognia. Мощную систему распознавания чарт-паттернов предоставляет в распоряжение трейдера канадская компания «Recognia Inc.». Разработанная технология позволяет проводить анализ нескольких рынков ценных бумаг. Специалист должен лишь задать параметры поиска (по финансовому инст-рументу, по определенной ценовой модели и др.)Программа «сканирует» графики и выявляет инструменты, с которыми проводить финансовые операции в данный момент рациональнее всего. Канадская компания «Recognia Inc.» обеспечивает он-лайновых брокеров, управляющих инвестиционными фондами и поставщиков финансовой информации сервисом, позволяющим автоматически выявлять события и паттерны, используя запатентованную технологию.
С помощью Recognia Service инвестор имеет возможность:
оценить перспективы по конкретному финансовому инструменту путем просмотра недавних событий технического анализа (technical events);
найти новые возможности для открытия позиций путем обзора ценных бумаг, для которых система Recognia обнаружила определенную ценовую фигуру;
определить, является ли выявленное событие значимым для него, изучив его характеристики и просмотрев график;
установить алерты по конкретным бумагам или торговым площадкам (предусмотреть формирование предупреждающих сигналов в случае обнаружения на графиках выбранных ценных бумаг);
узнать больше о техническом анализе из представленного учебного материала.
Можно выделить четыре этапа в работе Recognia Service (рис. 6.1).
1) данные по открыто торгуемым финансовым инструментам, включая акции, облигации, товары, валюту и индексы, автоматически поступают в Recognia после закрытия торгов. В настоящий момент Recognia анализирует более 20 ООО ценных бумаг каждый день, торгуемых на североамериканских биржах, и планирует включить сотни финансовых инструментов с других мировых площадок;
2) используя запатентованные алгоритмы распознавания паттернов и нейросетевые технологии, Recognia регулярно анализирует ценовые данные по этим финансовым инструментам, автоматически обнаруживая текущие и исторические ценовые модели на графиках. В разработке данной технологии участвовали эксперты в области технического анализа;
3) результаты проведенного анализа поступают клиентам компании, которые создают на своих сайтах соответствующие разделы;
4) инвесторы, брокеры и управляющие портфелями используют паттерны (модели) для обнаружения новых торговых возможностей и для подтверждения сигналов, полученных другими способами. Клиенты могут предоставлять информацию о выявленных ценовых паттернах бесплатно или организовывать платный сервис. Конечные пользователи формируют запрос на выявление паттернов по любым доступным параметрам (название бумаги, биржа, сектор, вид паттерна и др.)На сайте https://example.recognia.com/demo представлена демонстрационная версия Recognia On-Line Broker Product, которая обеспечивает доступ ко всем функциональным возможное - тям, но при ограниченном наборе финансовых инструментов и поступлении ценовой информации с задержками.
Recognia On-Line Broker Product обеспечивает инвесторов следующими инструментами:
Technical Event Stock Scrccner (рис. 6.2.) составляет список финансовых инструментов, которые отвечают введенным пользователем критериям. Инвестору необходимо задать параметры поиска, характеризующие искомое событие технического анализа: тип, дату, продолжительность, «медвежий» или «бычий» сигналы и т.д. Пользователь также может ввести и другие критерии поиска; биржу, отрасль, тип инструмента, объемы торгов и уровень цен. Например, необходимо найти акции нефтегазового сектора, которые недавно продемонстрировали ценовую модель разворота - «двойное дно». По таким бумагам ожидается движение цены вверх;
Technical Event Lookup. Данная функция позволяет получать список всех недавних событий технического анализа для конкретной бумаги или индекса. Все события для выбранной бумаги группируются на четыре различных класса:
а) классические паттерны (Classic Pattern) - традиционные графические модели, например, «двойная вершина» или «голова и плечи»;
б) краткосрочные паттерны (Short-term Pattern) или свечные модели;
в) индикаторы (Indicator) - события, основанные на скользящих средних;
г) осцилляторы (Oscillator), например, MACD или RSI.
Визуализация результатов распознавания. На рис. 6.3 представлен пример выявления Recognia графической модели. Инвестор получает следующую информацию: краткое описание события (паттерна), дату события и вероятный целевой диапазон иены. График включает линии, которые образуют паттерн, иконку, указывающую на дату события, а также линии тренда.
Q Recognta Inc. ZOOd
Chart Pattem Recognition for MetaStock (CPR) - дополнительная программа-эксперт для MetaStock, которая позволяет автоматически распознавать шесть классических трендовых моделей разворота («голова и плечи» на вершине и в основании, Лтройная вершина», «тройное основание», «двойная вершина» и «Двойное основание») и три трендовые модели продолжения
(«симметричный треугольник», «восходящий треугольник» и «нисходящий треугольник»). Эти графические модели являются наиболее надежными.
Когда программа выявляет паттерн, блок Expert Commentary, отвечающий за выдачу рекомендаций трейдеру при обнаружений паттернов на графике, информирует, где лучше разместить защитные стоп-приказы и какова ожидаемая цена актива. Программа отмечает выявленную неновую модель на графике, гене-рирует сигналы для входа и выхода из позиции. CPR позволяет быстро сканировать множество графиков в поисках ценовых паттернов.
1. Распознавание модели «голова и плечи». Основные правила для данной модели:
1) предшествующий восходящий тренд: три и более последовательных пика;
2) левое плечо следует после коррекционного снижения;
3) подъем до нового уровня выше левого плеча;
4) снижение иены до уровня предыдущего минимума;
5) третий подъем не достигает верхней точки средней вершины;
6) закрытие ниже линии шеи.
Как только цена опускается ниже уровня «шеи», программа CPR выдает сигнал на вход в короткую позицию на открытии следующей торговой сессии. Минимальная целевая цена определяется путем откладывания вниз от точки прорыва линии «шеи» расстояния от верхней точки «головы» до уровня следующей впадины. Максимальная целевая цена - минимальная цена первого бара предшествующего модели восходящего тренда. Информация о целевых ценах отражается в Expert Commentary.
Если минимальная целевая цена не достигается в течение определенного периода времени или цена поднимается выше линии «шеи», то модель отменяется. Максимальный временной период для достижения минимальной целевой цены эквивалентен расстоянию от левого «плеча» до правого.
2. Распознавание модели «тройная вершина». Основные правила для данной модели:
Лпредшествующий восходящий тренд: три и более последовательных пика;


4) снижение цены до уровня предыдущего минимума;
5) третий подъем достигает уровня предыдущих двух вершин;
6) закрытие ниже линии поддержки.
Как только цена опускается ниже уровня поддержки, СРЯ выдает сигнал на вход в короткую позицию на открытии следующей торговой сессии. Минимальная целевая цена определяется путем откладывания средней высоты трех вершин до линии поддержки вниз от точки прорыва. Максимальная целевая цена - минимальная цена первого бара предшествующего модели восходящего тренда.

3. Распознавание модели «двойная вершина». Основные правила для данной модели:

2) левая вершина следует после коррекционного снижения;
3) новый подъем до уровня левой вершины;
4) закрытие ниже уровня предыдущей впадины.
Как только цена опускается ниже уровня поддержки, СРЯ выдает сигнал на вход в короткую позицию на открытии следующей торговой сессии. Минимальная целевая цена определяется путем откладывания высоты первой вершины до линии поддержки вниз от точки прорыва. Максимальная целевая цена - минимальная цена первого бара предшествующего модели восходящего тренда.
Если минимальная целевая цена не достигается в течение определенного периода времени или цена поднимается выше линии поддержки, то модель отменяется. Максимальный временной период для достижения минимальной целевой цены эквивалентен расстоянию от левой вершины до правой.
4. Распознавание модели «восходящий треугольник». Основные правила для данной модели:
1) предшествующий восходящий тренд: два и более последовательных пика;
2) левая вершина следует после коррекционного снижения;
3) новый подъем до уровня левой вершины;
4) коррекция формирует вторую впадину выше предыдущей;
5) подъем выше предыдущего пика - точка прорыва.
Линии тренда, проведенные вдоль пиков и впадин треугольника, сходятся. Пройдя по горизонтали 2/3 или 3/4 длины треугольника, цена обычно прорывает его в направлении предшествующей тенденции. Если прорыва не происходит до преодоления расстояния в 75% от длины треугольника, то модель отменяется.
Как только цена поднимается выше уровня сопротивления, СРЯ выдает сигнал на покупку при открытии следующей торговой сессии. Минимальный временной период для достижения целевой цены эквивалентен расстоянию от первой вершины/ впадины до второй вершины/впадины. Целевая цена определяется путем откладывания вверх от точки прорыва полдлины основания треугольника.
5. Распознавание модели «нисходящий треугольник». Основные правила для данной модели:
лпредшествующий нисходящий тренд: две и более последовательные впадины;
2) левая впадина следует после коррекционного подъема;
3) новое снижение до уровня левой впадины;
4) подъем формирует вторую вершину ниже предыдущей;
5) падение ниже уровня предыдущей впадины - точка прорыва.
Как только цепа опускается ниже уровня поддержки, СРЯ выдает сигнал на вход в короткую позицию на открытии следующей торговой сессии (рис. 6.4). Если прорыва не происходит до преодоления расстояния в 75% от длины треугольника, то модель отменяется. Минимальный временной период для достижения целевой цены эквивалентен расстоянию от первой вершины/впадины до второй вершины/впадины. Целевая цена определяется путем откладывания вниз от точки прорыва полдлины основания треугольника.
6. Распознавание модели «симметричный треугольник». Основные правила для данной модели:
1) предшествующий восходящий или нисходящий тренд: два и более последовательных пика;
2) левая вершина (впадина) следует после коррекционного снижения (подъема);
3) подъем (снижение) ниже (выше) уровня предыдущей вершины (впадины);
4) снижение (подъем) формирует вторую впадину (вершину) выше (ниже) предыдущей;
5) прорыв линии тренда.
Как только цена поднимается выше уровня сопротивления, CPR выдает сигнал на покупку на открытии следующей торговой сессии. Если цена опускается ниже уровня поддержки, CPR выдает сигнал на вход в короткую позицию на открытии следующей торговой сессии. Если прорыва не происходит до преодоления расстояния в 75% от длины треугольника, то модель отменяется. Минимальный временной период для достижения Целевой цены эквивалентен расстоянию от первой вершины/ впадины до второй вершины/впадины. Целевая цена определяется путем откладывания от точки прорыва поддлины основания треугольника.
В CPR имеются средства анализа и классификации данных в виде дополнительного программного обеспечения к пакету Excel: AnalyzerXL, DownioaderXL, RTQuotesXL, PredictorXL, BulkQuotesXL, ClassifierXL, PortfolioXL, OptionsXL, их возможности представлены в табл. 6.1.
В самое последнее время появились новые программные системы распознавания чарт-паттернов, такие как: Pattem z - Pattem Recognition Software (http: // www.thepattemsite.com); Ramp-chart Pattern Recognition Scanner (http; // www.newadawn.com); Omni trader chart pattern Recognition Module 2 (http: // www.onmitrader.com); IBFX - PRS - Pattern Recognition System (http: // www.ibfx.com)

Когда мы слушаем, как кто-нибудь говорит, наше внутреннее ухо анализирует частотный спектр звука и мозг воспринимает слово. Некоторые компьютеры могут имитировать этот процесс при помощи анализатора спектра.

Звуковые сигналы поступают в анализатор через микрофон, и их спектральные характеристики анализируются. Затем компьютер сравнивает полученные сигналы с запрограммированным списком фонем, или строительных акустических блоков. Кратковременные сигналы сравниваются со стандартными образцами слов и соотносятся с правилами языка и синтаксиса.

Этот процесс помогает компьютеру идентифицировать произнесенные слова. Если программа достаточно сложная, она даже может определить по контексту, было ли произнесено слово «плод» или «плот». Но может ли компьютер действительно понимать речь, как это делают люди, - по сей день остается предметом жарких дебатов. Можно запрограммировать компьютер, чтобы он мог отвечать на определенные комбинации слов, но заменит ли это настоящее понимание? Некоторые специалисты в области искусственного интеллекта верят, что через несколько десятилетий компьютер сможет вести актуальную непринужденную беседу с человеком. Тем не менее многие специалисты убеждены, что компьютер будет всегда ограничен программой, заранее составленными ответами.

Распознавание голоса

Звуки, произносимые долее нескольких секунд, разбиваются на более короткие временные сегменты. Затем компьютер анализирует частотные компоненты каждого сегмента.

Акустический анализ

звуковой спектрограф представляет спектр звука в видимой форме. При одном методе анализа нормальная цепочка звуков человеческого голоса разбивается на сегменты, цветовой код которых указывает на силу и частоту их компонентов. Трехмерные графы, как на иллюстрации сверху, изображают еще один способ визуализирования подобной информации.

Принятие решения

По результатам анализа компьютер решает, было ли произнесено данное слово. Компьютер сравнивает записанный анализ со списком возможных кандидатов, затем применяет правила лексики и синтаксиса, чтобы определить, соответствует ли определенный звук определенному слову.

Стандартные речевые модели

Мельчайшие единицы речи определяются в терминах частотного спектра. Стандартные образцы речи указывают, какая единица имеется в данном слове.

Звуковой спектрограф (сверху) производит акустический анализ звуков в произносимых словах. Здесь гласный звук (наверху слева) сравнивается со спектром гласных (внизу).

Звуковые волны заставляют вибрировать барабанную перепонку. Эта вибрация передается нескольким маленьким косточкам и преобразуется в электрические сигналы, которые поступают в мозг.

15 июля 2009 в 22:16

Распознавание речи. Часть 1. Классификация систем распознавания речи

  • Искусственный интеллект
Эпиграф
В России, направление систем распознавания речи действительно развито довольно слабо. Google давно анонсировала систему записи и распознавания телефонных разговоров… Про системы похожего масштаба и качества распознавания на русском языке, к сожалению, я пока не слышал.

Но не нужно думать, что за рубежом все уже все давно открыли и нам их никогда не догнать. Когда я искал материал для этой серии, пришлось перерыть тучу зарубежной литературы и диссертаций. Причем статьи и диссертации эти были замечательных американских ученых Huang Xuedong; Hisayoshi Kojima; DongSuk Yuk и др. Понятно, на ком эта отрасль американской науки держится? ;0)

В России я знаю только одну толковую компанию, которой удалось вывести отечественные системы распознавания речи на коммерческий уровень: Центр речевых технологий . Но, возможно, после этой серии статей кому-нибудь придет в голову, что заняться разработкой таких систем можно и нужно. Тем более, что в плане алгоритмов и мат. аппарата мы практически не отстали.

Классификация систем распознавания речи

На сегодняшний день, под понятием “распознавание речи” скрывается целая сфера научной и инженерной деятельности. В общем, каждая задача распознавания речи сводится к тому, чтобы выделить, классифицировать и соответствующим образом отреагировать на человеческую речь из входного звукового потока. Это может быть и выполнение определенного действия на команду человека, и выделение определенного слова-маркера из большого массива телефонных переговоров, и системы для голосового ввода текста.

Признаки классификации систем распознавания речи
Каждая такая система имеет некоторые задачи, которые она призвана решать и комплекс подходов, которые применяются для решения поставленных задач. Рассмотрим основные признаки, по которым можно классифицировать системы распознавания человеческой речи и то, как этот признак может влиять на работу системы.
  • Размер словаря. Очевидно, что чем больше размер словаря, который заложен в систему распознавания, тем больше частота ошибок при распознавании слов системой. Например, словарь из 10 цифр может быть распознан практически безошибочно, тогда как частота ошибок при распознавании словаря в 100000 слов может достигать 45%. С другой стороны, даже распознавание небольшого словаря может давать большое количество ошибок распознавания, если слова в этом словаре очень похожи друг на друга.
  • Дикторозависимость или дикторонезависимость системы. По определению, дикторозависимая система предназначена для использования одним пользователем, в то время как дикторонезависимая система предназначена для работы с любым диктором. Дикторонезависимость – труднодостижимая цель, так как при обучении системы, она настраивается на параметры того диктора, на примере которого обучается. Частота ошибок распознавания таких систем обычно в 3-5 раз больше, чем частота ошибок дикторозависимых систем.
  • Раздельная или слитная речь. Если в речи каждое слово разделяется от другого участком тишины, то говорят, что эта речь – раздельная. Слитная речь – это естественно произнесенные предложения. Распознавание слитной речи намного труднее в связи с тем, что границы отдельных слов не четко определены и их произношение сильно искажено смазыванием произносимых звуков.
  • Назначение. Назначение системы определяет требуемый уровень абстракции, на котором будет происходить распознавание произнесенной речи. В командной системе (например, голосовой набор в сотовом телефоне) скорее всего, распознавание слова или фразы будет происходить как распознавание единого речевого элемента. А система диктовки текста потребует большей точности распознавания и, скорее всего, при интерпретации произнесенной фразы будет полагаться не только на то, что было произнесено в текущий момент, но и на то, как оно соотносится с тем, что было произнесено до этого. Также, в системе должен быть встроен набор грамматических правил, которым должен удовлетворять произносимый и распознаваемый текст. Чем строже эти правила, тем проще реализовать систему распознавания и тем ограниченней будет набор предложений, которые она сможет распознать.
Различия методов распознавания речи
При создании системы распознавания речи требуется выбрать, какой уровень абстракции адекватен поставленной задаче, какие параметры звуковой волны будут использоваться для распознавания и методы распознавания этих параметров. Рассмотрим основные различия в структуре и процессе работы различных систем распознавания речи.
  • По типу структурной единицы. При анализе речи, в качестве базовой единицы могут быть выбраны отдельные слова или части произнесенных слов, такие как фонемы, ди- или трифоны, аллофоны. В зависимости от того, какая структурная часть выбрана, изменяется структура, универсальность и сложность словаря распознаваемых элементов.
  • По выделению признаков. Сама последовательность отсчетов давления звуковой волны – чрезмерно избыточна для систем распознавания звуков и содержит много лишней информации, которая при распознавании не нужна, либо даже вредна. Таким образом, для представления речевого сигнала из него требуется выделить какие-либо параметры, адекватно представляющие этот сигнал для распознавания.
  • По механизму функционирования. В современных системах широко используются различные подходы к механизму функционирования распознающих систем. Вероятностно-сетевой подход состоит в том, что речевой сигнал разбивается на определенные части (кадры, либо по фонетическому признаку), после чего происходит вероятностная оценка того, к какому именно элементу распознаваемого словаря имеет отношение данная часть и (или) весь входной сигнал. Подход, основанный на решении обратной задачи синтеза звука, состоит в том, что по входному сигналу определяется характер движения артикуляторов речевого тракта и, по специальному словарю происходит определение произнесенных фонем.

UPD: Перенес в «Искуственный интеллект». Если будет интерес, дальше публиковать буду в нем.

Распознавание речи -- процесс преобразования речевого сигнала в цифровую информацию (например, текстовые данные). Обратной задачей является синтез речи. Первое устройство для распознавания речи появилось в 1952 году, оно могло распознавать произнесённые человеком цифры. В 1962 году на ярмарке компьютерных технологий в Нью-Йорке было представлено устройство IBM Shoebox. Все большую популярность применение распознавания речи находит в различных сферах бизнеса, например, врач в поликлинике может проговаривать диагнозы, которые тут же будут внесены в электронную карточку. Или другой пример. Наверняка каждый хоть раз в жизни мечтал с помощью голоса выключить свет или открыть окно. В последнее время в телефонных интерактивных приложениях все чаще стали использоваться системы автоматического распознавания и синтеза речи. В этом случае общение с голосовым порталом становится более естественным, так как выбор в нём может быть осуществлен не только с помощью тонового набора, но и с помощью голосовых команд. При этом системы распознавания являются независимыми от дикторов, то есть распознают голос любого человека.

Классификация систем распознавания речи.

Системы распознавания речи классифицируются:

  • · по размеру словаря (ограниченный набор слов, словарь большого размера);
  • · по зависимости от диктора (дикторозависимые и дикторонезависимые системы);
  • · по типу речи (слитная или раздельная речь);
  • · по назначению (системы диктовки, командные системы);
  • · по используемому алгоритму (нейронные сети, скрытые Марковские модели, динамическое программирование);
  • · по типу структурной единицы (фразы, слова, фонемы, дифоны, аллофоны);
  • · по принципу выделения структурных единиц (распознавание по шаблону, выделение лексических элементов).

Для систем автоматического распознавания речи, помехозащищённость обеспечивается, прежде всего, использованием двух механизмов:

  • · Использование нескольких, параллельно работающих, способов выделения одних и тех же элементов речевого сигнала на базе анализа акустического сигнала;
  • · Параллельное независимое использование сегментного (фонемного) и целостного восприятия слов в потоке речи.

Архитектура систем распознавания

Типичная архитектура статистических систем автоматической обработки речи.

  • · Модуль шумоочистки и отделение полезного сигнала.
  • · Акустическая модель -- позволяет оценить распознавание речевого сегмента с точки зрения схожести на звуковом уровне. Для каждого звука изначально строится сложная статистическая модель, которая описывает произнесение этого звука в речи.
  • · Языковая модель -- позволяют определить наиболее вероятные словесные последовательности. Сложность построения языковой модели во многом зависит от конкретного языка. Так, для английского языка, достаточно использовать статистические модели (так называемые N-граммы). Для высокофлективных языков (языков, в которых существует много форм одного и того же слова), к которым относится и русский, языковые модели, построенные только с использованием статистики, уже не дают такого эффекта -- слишком много нужно данных, чтобы достоверно оценить статистические связи между словами. Поэтому применяют гибридные языковые модели, использующие правила русского языка, информацию о части речи и форме слова и классическую статистическую модель.
  • · Декодер -- программный компонент системы распознавания, который совмещает данные, получаемые в ходе распознавания от акустических и языковых моделей, и на основании их объединения, определяет наиболее вероятную последовательность слов, которая и является конечным результатом распознавания слитной речи.

Этапы распознавания:

  • 1. Обработка речи начинается с оценки качества речевого сигнала. На этом этапе определяется уровень помех и искажений.
  • 2. Результат оценки поступает в модуль акустической адаптации, который управляет модулем расчета параметров речи, необходимых для распознавания.
  • 3. В сигнале выделяются участки, содержащие речь, и происходит оценка параметров речи. Происходит выделение фонетических и просодических вероятностных характеристик для синтаксического, семантического и прагматического анализа. (Оценка информации о части речи, форме слова и статистические связи между словами.)
  • 4. Далее параметры речи поступают в основной блок системы распознавания -- декодер. Это компонент, который сопоставляет входной речевой поток с информацией, хранящейся в акустических и языковых моделях, и определяет наиболее вероятную последовательность слов, которая и является конечным результатом распознавания.
  • · Голосовое управление
  • · Голосовые команды
  • · Голосовой ввод текста
  • · Голосовой поиск

Успешными примерами использования технологии распознавания речи в мобильных приложениях являются: ввод адреса голосом в Яндекс Навигаторе, голосовой поиск Google Now.

Помимо мобильных устройств, технология распознавания речи находит широкое распространение в различных сферах бизнеса:

  • · Телефония: автоматизация обработки входящих и исходящих звонков путём создания голосовых систем самообслуживание в частности для: получения справочной информации и консультирования, заказа услуг/товаров, изменения параметров действующих услуг, проведения опросов, анкетирования, сбора информации, информирования и любые другие сценарии;
  • · Решения "Умный дом": голосовой интерфейс управления системами «Умный дом»;
  • · Бытовая техника и роботы: голосовой интерфейс электронных роботов; голосовое управление бытовой техникой и т.д.;
  • · Десктопы и ноутбуки: голосовой ввод в компьютерных играх и приложениях;
  • · Автомобили: голосовое управление в салоне автомобиля -- например, навигационной системой;
  • · Социальные сервисы для людей с ограниченными возможностями.

программный автоматизация ввод распознавание

Название устройства (фирма, страна) Метод анализа и распо­зна­вания Вид распознаваемой речи Объем словаря, слова Надежность распознава­ния, % Допусти­мый уро­вень помех Способ адаптации к директору Наличие телефонного интерфейса Наличие синтеза­тора речи Область применения
РЕЧЬ-121 (СССР) Полос­ный, ДП Изолирован­ные слова (слитная речь) 99 (93 на 200 слов) (1-10)-крат­ное произне­сение Есть Есть САПР, АСУ, АСУПТ
БАРС (СССР) То же Изолирован­ные слова Однократное произнесение То же То же САПР
СИБИРЬ-1 (СССР) » То же То же Нет » Диспет­чер­ские системы
СИРИУС-1 (СССР) Клиппи­ро­ванный сигнал, ДП » » То же » Специаль­ное

4.4. Перспективные зарубежные системы
речевого общения

Из всего разнообразия зарубежных промышленных СРО рассмотрим системы, которые, на наш взгляд, являются наиболее перспективными в плане реализации в них как новых теоретических моделей, так и достигнутых показателей качества синтеза и распознавания речи.

Примером высококачественного синтезатора, с помощью ко­торого можно воспроизвести близкую к естественной речь различ­ного темпа и оттенков непосредственно по тексту неограниченного словаря, является устройство DES-talk. Устройство DES-talk (см. табл. 1.1) представляет собой блок размером 10 ´ 45 ´ 30 см, на задней панели которого расположены разъемы для подключения ЭВМ, видеотерминала и печатающего устройства, различных устройств вывода информации, в том числе телефона, индикатора на светодиодах, регулятора громкости. Высокое качество синтезатора DES-talk обусловлено большой библиотекой используемых правил, возможностью выбора словаря по желанию пользователя, качеством аппаратных средств для преобразования речи. Пользователь может выбрать семь различных голосов, в том числе стандартные женский, мужской, детский, а также низкий мужской и голос пожилого человека.

В устройстве DES-talk процесс преобразования текстовой информации в речевую разделяется на три уровня. На первом слова преобразуются в цифровую форму в соответствии с кодом ASCII и разбиваются на фонемы. При этом используются набор правил преобразования букв в звуки и два словаря. Один содержит 6000 слов, другой - около 150 специфических терминов, иностранных слов и аббревиатур, вводимых самим пользователем. Преобразования первого уровня начинаются с поиска эталон­ных слов, соответствующих вводимому орфографическому тексту, в большом словаре. Если эталоны найдены, то текст, преобразованный в фонемную форму, сразу передается на второй уровень обработки. Если эталоны не найдены ни в одном из словарей, то вводимый текст обрабатывается в соответствии с правилами преобразования букв в звуки и затем передается на второй уровень. На втором уровне производится считывание фонем, синтаксический анализ, определяются интонация, продолжительность и ударение в словах, выполняются акустические расчеты. На третьем уровне осуществляются окончательные преобразо­вания входной текстовой информации и синтез речи. Синтезирван­ные цифровые сигналы передаются со скоростью не менее 120 Кбит/с в стандартный цифроаналоговый преобразователь (ЦАП). В синтезаторе DES-talk используются эвристические правила для оценки влияния окружающих слов на произношение, интонацию, продолжительность и ударение в данном слове.

Программное обеспечение для синтезатора DES-talk практически аналогично программному обеспечению для существую­щих алфавитно-цифровых терминалов, работающих в стандарте ASCII, за исключением модулей, определяющих формат данных. Поэтому создание программного обеспечения не вызывает труд­ностей, что открывает синтезатору DES-talk широкие области применения.

Создание перспективных моделей распознавания речи свя­зано со стремлением достичь высокой надежности при работе с большими словарями (свыше 1000 слов) в режиме слитного произнесения. Наиболее близко к такому идеалу подходит система KVS-3000, словарь которой содержит 10 000 слов, а точность распознавания 95 %. Для подготовки устройства к работе весь на­бор эталонных слов должен быть произнесен трижды, поэтому па­мять устройства KVS-30 000 рассчитана на хранение 30 000 слов. Среднее время распознавания - около 500 мс.

Фирма «Verbex» (США) разработала мощную систему распознавания непрерывной речи - модель Verbex-30 000, позво­ляющую распознавать предложения любой длины, состоящие из отдельных или слитно произносимых слов. Эта система ориентирована на голос одного диктора, при смене диктора необходима перезапись в ОЗУ для хранения эталонов слов. Модель Verbex-30 000, построенная по архитектуре «звезды», включает 2-4 таких речевых процессора и может оперировать 120-360 словами. Каждый процессор содержит ЗУ емкостью 0,25 Мбайт для хранения данных, а также ЗУ для хранения 4000 микрокодовых инструкций, каждая длиной 64 бит. Кроме того, гибкость конструкции системы, обеспеченная развитой структурой элементов сопряжения, позволяет использовать память центральной ЭВМ. Быстродействие речевого процессора - 5 млн опер./с.

Микропроцессорная архитектура системы позволяет производить операции с высоким быстродействием, что является необходимым условием для выполнения алгоритма распознавания непрерывной речи. Процесс распознавания, который заключается в подборе последовательности эталонных слов, максимально соот­ветствующей произнесенной пользователем, осуществляется ДП-методом. Входные речевые сигналы усиливаются, фильтруют­ся и кодируются аудипроцессором, а затем передаются в управляющий процессор с интервалом 10 мкс. Управляющий процессор распределяет сигнал между речевыми процессорами, которые выделяют его фонетические характеристики. Разработчики системы определили, что для обеспечения точности распознавания 99 % достаточно 16 таких характеристик. Процесс распознавания в управляющем процессоре и поиск эталона производятся одновременно, т. е. когда процессор «улавливает» окончание речи.

Во избежание влияния на окончательный результат распознавания ошибок, возможных на первом этапе, система постоянно проверяет множество параллельных гипотез, сравнивая ввод данных с грамматически обозначенным набором всех нормальных произношений. Ответ задерживается до момента проверки всех гипотез и совпадения произнесенного с эталоном.

4.5. Тенденции применения средств
речевого общения

До последнего времени большинство работ, связанных с созданием СРО, базировалось на идее формирования акустических эталонов речевых элементов разных уровней (фонем, слогов, слов). При этом распознавание было реализовано как обнаружение и идентификация в потоке речи этих акустических эталонов. В настоящее время стало очевидным, что такой подход ма­лоперспективен из-за значительной вариативности акустических характеристик речевого сигнала, связанной как с лингвистическими (эффекты коартикуляции, редукции, ассимиляции), так и с экстралингвистическими факторами (индивидуальные особенности голосов дикторов, различия в их произносительных навыках, состояние проводящей среды и др.). Особенно большую вариантность имеют акустические характеристики фонем. Поэтому в большинстве промышленных систем распознавания речи отказались от пофонемного анализа и приняли слово в качестве минимального распознаваемого элемента. Данный подход, хотя и дал на определенном этапе речевых исследований зримые результаты, оказался неплодотворным при решении сложных задач распознавания, таких, как распознавание речи без подстройки под диктора или создание систем с большими словарями. Это заставило вернуться к идее пофонемного анализа речи на новом качественном уровне, который предполагает моделирование различных аспектов процесса переработки информации человеком при восприя­тии речи, использование знаний, накопленных в лингвистике, те­о­­рии восприятия и психологии. При таком подходе одной из карди­нальных задач распознавания речи является задача обнаружения и моделирования тех механизмов восприятия речи человеком, которые обеспечивают устойчивость и стабильность воспри­ни­маемых речевых элементов в условиях их огромной акустической вариативности.

Все большее распространение получает подход к решению задачи распознавания речи, связанный с чтением динамических спектрограмм неизвестного речевого сигнала фонетистом-экспер­том. Интерес к экспериментам по чтению спектрограммы связан, во-первых, с тем, что они демонстрируют богатство фонетической информации, заключенной в речевом сигнале, представленном в виде трехмерной (частота - время - интенсивность) спектральной картины, а во-вторых, с тем, что они позволяют во­плотить знания и процедурные навыки эксперта в системах распознавания речи. Исследования по чтению спектрограммы ведутся в разных странах, и в настоящее время главным в этих исследованиях является проблема выявления и формализации знаний
и процедурных навыков экспертов. Оказалось, что это весьма сложный процесс, т. к. эксперты не всегда способны выразить принципы и правила, которыми они руководствуются в ходе акустико-фонетического декодирования речевых спектрограмм. Одной из существенных проблем является воплощение в алгоритме правил и знаний, которые кажутся эксперту очевидными (например, F 420 не может быть выше 2500 Гц) либо сложно формулируемыми (например, правило определения компактности взрыва смычных). Для преодоления этих трудностей, связанных с извлечением и записью знаний эксперта, используются экспертные системы. Экспертные системы отличаются от обычных компьютерных программ тем, что они могут решать задачи, не имеющие жестких алгоритмических решений, и осуществлять выводы, осно­ванные на неполной или недостоверной информации. Поэтому они гораздо более приспособлены для моделирования гибкой дея­тельности человека, что и было использовано в речевых исследованиях. Необходимо подчеркнуть, что в этих исследованиях ЭС применяются именно как инструмент анализа для накопления ба­зы знаний в процессе взаимодействия системы и эксперта. Исполь­зование ЭС в качестве системы распознавания неэффективно.

Вторая существенная трудность при моделировании деятельности фонетиста-эксперта заключается в том, что визуальный анализ спектрограмм, лежащий в основе декодирующих действий эксперта, не менее сложен, чем слуховая обработка речевого сигнала. При формализации чтения спектрограмм возникает сложная проблема извлечения акустических признаков, легко выделяемых зрительной системой человека. При разработке ЭС многие исследователи эту трудность просто обходят. Однако уже из самого рассмотрения возникшей ситуации логически вытекает представление о наличии некоторого промежуточного уровня кодирования речевой информации при переходе от параметрического описания спектра к его фонетической интерпретации. Более того, необходимость разработки принципов промежуточного описания речевых сигналов выделяется в качестве центральной проблемы автоматического распознавания речи. Отмечается, что только промежуточное описание позволяет перекинуть мост между непосредственно наблюдаемым непрерывным акустическим сигналом и дискретным лингвистическим описанием. Промежуточное представление описывает «поведение» акустических характеристик, которое в значительной степени является инвариантным при переходе от диктора к диктору и зависит, главным образом, от контекстного взаимодействия фонетических единиц. При этом промежуточное представление, как правило, выражается в качественном виде и описывается в терминах наличия - отсутствия определенных акустических объектов, высокого - низкого положения в спектре или сильного - слабого проявления той или иной энергетической составляющей.

Таким образом, в процессе акустико-фонетического декодирования осуществляется вначале переход от количественных изменений к качественному описанию, а затем от качественных описаний к признакам фонем. Как правило, единицы промежуточного уровня представления речевой информации называются акустическими ключами, акустическими признаками или дискрипторами.

В России работы по чтению спектрограмм фонетистами-экспертами, выработке правил их фонемной и словесной интер­претации проводятся с 1980 года. Полученные результаты поз­волили приступить к созданию аппаратно-программной модели анализа речи, в основу которой положены алгоритмы чтения спектрограмм.