Два сервиса распознавания речи и перевода в текст онлайн. Автоматизированные системы распознавания речи

Данной проблемой учёные занимаются около 70 лет, первая промышленная система была создана в Японии второй половине 80-х, её называли системой надиктовки текста в ПК (диктографами), данная система имела узкую специализацию.

Под распознавание речи ПК понимают такое распознавание, которое подробно восприятию речи человеком, в любых условиях и при общении с любым человеком.

Решению проблемы мешает:

1) Отсутствие чётких теоретических представления, которые описывали бы весь комплекс преобразований, осуществляемых нервной системой при переработке речевых сигналов;

2) Обладание слитно произнесённой речью:

3) Размытой границы слов:

4) Влияния соседних звуков друг на друга;

5) Нечётким выговором и даже исчезновением функциональных слов;

7) Большое значение в процессе речевого общения паралингвистических средств коммуникации:

а) Кинесика (мимика, жесты);

в) Проксемика (расстояние между людьми).

Поэтому сегодня АРР может осуществляться только при определённых ограничениях:

1) Распознавание изолированно произнесённых слов;

3) Распознавание с опорой на небольшой, заранее определённый словарь.

IBM – лидер в продуктах такого рода с системой ViaVoice (140 слов в минуту). Популярной системой надиктовки является DragonSystem.

Алгоритм распознавания:

1. Ввод устной речи, обработка данных (убор шумов);

2. Деление звукового потока на сегменты;

3. Выделение в каждом сегменте минимальной акустической единицы – слова;

4. Сравнение выделенных единиц с эталонами.

Промышленные системы распознавания речи условно делятся на 4 группы:

1. Средства речевого управления (ПК, телефон);

2. Средства надиктовки текста;

3. Информационно-справочные системы в диалоговом режиме в качестве автоответчика;

4. Средства идентификации человека по образцу речи.

Вопрос 27.

Системы автоматического синтеза речи

Методы:

1) Кодирование (запись в двоичной системе речевых сигналов с их последующим восстановлением)

а) По существу ПК здесь служит устройством для записи речи, слова и фразы записываются в ПК заранее и в нужный момент воспроизводятся по командам);

б) Недостаток:

Сказать фразу, не введённую в память, нельзя;

Для хранения речевых сигналов в непосредственной форме нужен большой объём памяти;

в) Преимущества:

Естественное звучание речи;

По качеству речь приближается к человеческой;

2) Фонетический синтез речи (акустическое моделирование голосового тракта человека)

а) Синтезатор по этому методу принципиально отличается от синтезатора по первому методу – имеет неестественное звучание, говорит голосом робота;

б) Обычно осуществляется по орфографическому тексту, написанному человеком, ПК в нём умеет преобразовывать буквы в фонемы, фонемы в аллофоны и синтезировать непрерывный речевой сигнал с использованием аллофонов диктора, выбираемых и базы данных;

в) Наиболее перспективен, так как речь генерируется действительно самим ПК.

а) Словарь в синтезаторе этого вида, как и в первом методе, создаётся с участием человека, но здесь в память записываются не слова и фразы, а производится выделение числовых характеристик звуков речи и интонации фраз, что позволяет уменьшить объём требуемой памяти.

б) Речь естественна, для её генерации числовые характеристики по специальным командам преобразуются в звуковые сигналы.

Сейчас ведутся разработки над тем, чтобы синтезированная речь была звучала живо, эмоционально, естественно. Решение этой проблемы позволит создавать системы синхронного перевода, активнее использовать ПК при обучении языку, а также людям с нарушениями зрения.

Вопрос 28.

Базы данных (БД) и лингвистические информационные ресурсы (ЛИР)

БД – совокупность определенным образом упорядоченных сведений о некоторых объектах.

Объекты - это сведения, факты, события, процессы. Объект может быть материальным (студент, товар, машина) и нематериальным (событие - поход в цирк, процесс - перевод текста, факт - поступление в университет). В жизни каждый объект обладает определенными свойствами или атрибутами (вес, скорость, цвет), которым приписываются определенные значения: батон весит 400 гр., скорость машины 90 км./ч.

В БД атрибуты представляются элементами данных или просто данными, а их значения – значения данных.

Таким образом, данное – это некоторый показатель, который характеризует заданный объект и принимает для конкретного элемента объекта некоторое значение. Группа данных, которая образует одну строку, называется записью. Если несколько записей имеют одно и тоже множество данных с однотипной информацией то говорят, что эти записи имеют один формат. Множество записей с одним форматом называют файлом. А множество файлов образуют базу данных.

Основные функции БД

1) Поиск информации в БД

а) добавление;

б) удаление

в) редактирование

Системы управления базами данных (СУБД)

СУБД – совокупность программных средств, позволяющих осуществлять создание и ведение базы данных..

Типы СУБД:

1. Настольные СУБД по степени сложности подразделяются:

а) СУБД для обработки небольших объемов информации (MS OUTLOOK)

б) СУБД, ориентированные на пользователя, не умеющего программировать (EXCEL, LOTUS)

в) Сложные СУБД, ориентированные на разработку приложений (Fox Base, MS Access)

2. Серверные СУБД – используют архитектуру “клиент-сервер”, т.е. осуществляют централизованное хранение и обработку данных (Informix, MS SQL Server).

Основные функции СУБД

1) Обеспечить создание структуры БД (определить, какая информация будет храниться, какие атрибуты, типы данных)

2) Модификация информации, находящейся в БД:

а) добавление;

б) удаление

в) редактирование

3) Поиск информации

Вопрос 29.

ЛИР -

Активные формы

В самом общем виде ЛИР

Пассивные лингвистические информационные ресурсы включают:

1) Письменный лексикон представлен одноязычными и многоязычными лексиконами. В общем смысле словарь - это справочная книга, которая содержит слова (морфемы, словосочетания, идиомы и т.п.), расположенные в определенном порядке (различном в разных типах словарей). В нем может содержаться толкование значения описываемых единиц, а также различная информацию о них. Любой словарь может быть представлен в виде реляционной БД

а) частотно-алфавитный словарь словоформ какого-либо текста – простейшая лингвистическая БД;

б) словоуказатель – более сложная БД. В ней, кроме абсолютной частоты употребления словоформы в тексте, указываются номера страниц и строк на странице, где встретилась данная словоформа.

в) конкордансы – ещё более сложный тип БД. В них каждая словоформа текста характеризуется не только численными показателями (частотой, номером страницы, номером строки и т.д.), но и некоторым контекстом, в котором она употреблена. Как правило, этот контекст состоит из 3-х предложений: предложения, в котором встретилась словоформа, предложения, стоящего перед основным предложением, и предложения, стоящего после него

г) энциклопедии – словари, содержащие характеристики не слова как такового, а обозначенного им предмета, факта или явления. Существует достаточно большое число различных энциклопедий на машинных носителях информации. Наиболее известна среди них энциклопедия "Britannica". Она включает 82000 статей и 700 дополнительных материалов, опубликованных с 1768 года. Не менее известны французские энциклопедии "Tons les savoire du Monde", "Le monde sur CD-ROM", "Versailles" и др. На русском языке издана "Большая Энциклопедия Кирилла и Мефодия

д) тезаурус - принципиально иной тип словарей. В нем в явном виде указаны семантические связи между определенной частью его лексических единиц. Как правило, такие словари строятся для текстов достаточно узкой проблемной области: вычислительной техники, музыки, кораблестроения, сельского хозяйства и т.д.

е) терминологическим словарь (ТС) – словарь, основной единицей которого является термин.
Термин - это слово или подчинительное словосочетание, имеющее специальное значение, выражающее и формирующее профессиональное понятие и применяемое процессе познания и освоения научных и профессионально-технических объектов и отношений между ними.

Вопрос 30.

ЛИР - совокупность данных хранящихся на ПК.

Лингвистические информационные ресурсы – одна из составляющих информационных ресурсов.Под информационным ресурсом понимают некоторый интеллектуальный ресурс, результат коллективного творчества

К пассивным формам информационных ресурсов относят книги, журналы, газеты, словари, энциклопедии, патенты, базы и банки данных и т.п.

Активные формы включают алгоритмы, модели, программы, базы знаний

В самом общем виде ЛИР – это своеобразная лингвистические БД, которые можно обновлять и в которых можно искать ту или иную информацию. Лингвистические ресурсы необходимы как пользователям ПК, так и различным компьютерным системам, связанным с обработкой текста речи: реферирования, аннотирования и перевода текстов, автоматического анализа текста, синтеза речи и текста.

2) Письменный текстовый массив (корпус тексто в, т.е. совокупность текстов, являющаяся достаточной для обеспечения надежных научных выводов о некотором языке, диалекте или ином другом подмножестве языка).

а) Могут быть использованы:

В лексикографии и лексикологии (для составления различных словарей, определения значений многозначных слов, выявления ассоциативных связей слов в тексте, выделения терминов и терминологических словосочетаний и т.п.).

В грамматике (для определения частоты употребления грамматических морфем в текстах различного типа, выявления наиболее употребляемых типов словосочетаний и предложений, определения значений синонимичных морфологических единиц, частоты употребления классов слов и т.д.).

В лингвистике текста (для дифференциации типов текста, создания конкордансов, выявления связи между предложениями в абзацах и между абзацами «т.д.).

При автоматическом переводе текстов (для поиска контекстов слов, имеющих несколько переводных эквивалентов, поиска переводных эквивалентов терминологических и фразеологических словосочетаний в параллельных текстах и т.д.).

В учебных целях (для выбора цитат, отдельных фрагментов произведений, примеров, используемых в процессе создания учебников и учебных пособий.

б) таггированные корпусы текстов (от англ, tag - "индекс, помета"). Все слова такого корпуса получают некоторые буквенные или цифровые индексы, которые обозначают их грамматические, лексические, семантические или структурные признаки. Таких индексов может быть несколько.

3) Фонетические лингвистические ресурсы
В настоящее время общепринято, что для создания машиночитаемых фонетических корпусов используется транскрипция на основе орфографического представления звуковречи с дополнительными знаками, передающими (при необходимости) просодические, паралингвистические и другие особенности произношения.

а) Фонетические корпусы текстов широко используются для решения следующих задач:

Сопоставительного изучения устной и письменной форм языка;

Изучения грамматических и лексических особенностей устной речи;

Исследования фонетических особенностей диалектов;

Построения частотных списков фонем и их сочетаний;

Изучения акустических свойств речевых единиц и их использования в психолингвистических и лингвистических экспериментах;

Создания компьютерных систем, распознавания и синтеза устной речи.

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

ВВЕДЕНИЕ

Изучением человеческой речи занимаются давно. В середине ХХ века возникает проблема автоматического распознавания речи вычислительными машинами. За полвека ученым удалось накопить огромное количество знаний о предмете исследований. Стало понятным, что распознавание речи - очень непростая задача.

Основной техникой для многих систем распознавания речи является статистический метод, называемый скрытым Марковским моделированием (HMM). Такие системы разрабатываются во многих центрах и способны на хорошее распознавание слов речи. Вероятность распознавания слов достигает 80 - 90 %.

Области применения систем автоматического распознавания речи самые разнообразные. Например, с начала девяностых годов в нескольких американских и канадских компаниях по заказу министерства обороны США ведется разработка систем распознавания, предназначенных для перехвата телефонных переговоров. В последнее время системы распознавания применяются в компьютерных курсах обучения иностранному языку, системах подготовки текстовых документов. Перспективными направлениями являются разработка систем помощи людям с ограниченными возможностями и совершенствование человеко-машинного интерфейса .

Факторами, сдерживающими широкое внедрение систем автоматического распознавания речи, являются:

Сложность реализации в малогабаритной мобильной аппаратуре из-за высоких вычислительных расходов и их значительной неравномерности, а так же необходимость хранения в памяти большого словаря (набора моделей распознаваемых речевых единиц);

Значительное ухудшение параметров качества в условиях помех.

В данной работе представлены основные принципы построения систем распознавания речи, предварительной обработки исходного сигнала, построения акустических и языковых моделей, рассмотрен современный подход к помехоустойчивости систем распознавания. Рассматриваются способы оценки качества распознающих систем.

Уделяется так же внимание проблемам разработки, перспективам развития и непрерывного совершенствования распознающих систем.

1. СИСТЕМЫ РАСПОЗНАВАНИЯ РЕЧИ

Распознавание речи - процесс преобразования акустического сигнала, преобразованного в электрический, в последовательность слов. Распознанные слова могут быть конечным результатом, если целью системы является управление, ввод данных или подготовка документа. Они могут также быть основой для последующей лингвистической обработки для достижения понимания речи .

1.1 Классификация и структура систем распознавания речи

Классификация

Системы распознавания речи характеризуются множеством параметров, основные из которых приведены в таблице 1.1.

Таблица 1.1. Общие параметры систем распознавания речи

Параметр	Диапазон изменения
Связность	Отдельные слова или непрерывная речь
	Речь по написанному тексту или спонтанная
Подстройка	Зависимость или независимость от говорящего
	От малого(<20 слов) до большого(>20000)
Языковая модель	С набором состояний или зависимая от контекста
Перплексность	От малой (< 10) до большой (> 100)
	От большого (>30dB) до малого (<10dB)

Если система предназначена для распознавания отдельных слов, то говорящий должен делать между ними паузы, если - для непрерывной речи, то нет. Спонтанная речь обычно содержит гораздо больше бессвязностей, чем речь читающего письменный текст, следовательно, ее труднее распознавать. Некоторые системы требуют подстройки под говорящего, когда пользователь перед применением системы должен произнести какие-то слова или фразы для подстройки системы, в то же время другие системы этого не требуют. Распознавание в целом является более сложной задачей, когда объем словаря большой и содержит много похоже звучащих слов.

Простейшую модель языка можно описать сетью с определенным числом состояний. В ней множество допустимых слов, следующих за каждым словом, является определенным. Модели, приближающиеся к естественному языку, определяются с помощью контекстно-зависимых грамматик.

Широко используемым показателем сложности задачи, решаемой системой распознавания, является перплексность (perplexity, трудность, сложность, запутанность). Перплексность определяется как число возможных слов, следующих за данным словом в данной языковой модели.

Распознающую систему характеризует так же такой параметр как максимально допустимое отношение сигнал-шум (signal to noise ratio, SNR).

Распознавание речи - сложная задача, в основном из-за большого числа источников, влияющих на параметры речевого сигнала:

Акустическое звучание фонем, наименьших речевых единиц, сильно зависит от окружающего их фонетического контекста (/t/ в словах two, true, butter), в словосочетаниях контекстная зависимость становится еще сильнее («освоить производство», «усвоить хорошие манеры»);

Акустические вариации сигнала из-за различия акустики помещений, характеристик и расположения микрофона;

Физическое и эмоциональное состояние говорящего;

Его возраст, пол, социальное положение, диалект.

Общая структура системы распознавания речи представлена на рисунке 1.1.

Рисунок 1.1 - Структура системы распознавания речи.

Речевой сигнал делится на участки, для каждого участка рассчитывается набор параметров. Эти параметры используются для поиска самого подходящего слова - кандидата в пределах имеющихся акустических, лексических и языковых моделей. Лексические модели в современных системах включены в языковую модель как принципы и способы создания словаря на основе имеющейся текстовой базы и поиска в нем. В наиболее простых системах языковая модель вырождается в лексическую.

1.2 Современный уровень развития

Качество работы распознающей системы обычно оценивается с помощью такого показателя как норма ошибки:

(1.1)

N - общее число слов в тестовом наборе, S, I, D - соответственно число замещений, вставок и удалений слов.

С девяностого года 20 века в технологии распознавания речи достигнут значительный успех. Норма ошибки снижалась примерно в 2 раза за каждые 2 года. Были в основном преодолены барьеры зависимости распознающей системы от диктора, распознавания непрерывной речи и использования словаря большого объема. Этому способствовали несколько факторов:

- использование Скрытых Марковских моделей (СММ);

Разработка стандартных правил составления речевых баз данных для обучения и тестирования (TIMIT, RM, ATIS, WSJ и др.), они позволяют разработчикам определять число акустических реплик, важных для подчеркивания фонетических особенностей, на основе статистических методик. Стандартизация правил обучения и тестирования позволяет так же сравнить производительность различных систем;

- существенное увеличение производительности вычислительных систем.

Типичная задача с низким уровнем перплексности (РР = 11) - распознавание цифр в стандартном телефонном канале. Здесь достигнута норма ошибки 0,3% при известной длине последовательности цифр.

Задачами среднего уровня перплексности являются задачи управления ресурсами, например система распознавания спонтанной речи для информационной системы воздушного движения (Air Travel Information Service, ATIS) со словарем около 2000 слов и РР = 15 достигает нормы ошибки не более 3%.

Высоким уровнем перплексности (РР? 200) и большим словарем (около 20000 слов) обладают системы, предназначенные для диктовки текста. Достигнутая ими норма ошибки составляет порядка 7%.

Основными направлениями применения распознающих систем являются голосовой набор телефонного номера (например «звоню домой» вместо набора номера), подготовка документов, информационно-справочные системы, системы обучения иностранному языку.

1.3 Перспективы

Помехоустойчивость

Качество работы распознающих систем катастрофически снижается при возрастании разницы в условиях записи обучающих речевых данных и условиях реальной работы из-за различных помех. Поэтому, влиянию акустического окружения и электрических характеристик канала передачи будет уделено особое внимание.

Переносимость

При переносе современных систем на решение новой задачи качество их работы сильно снижается. Для его улучшения требуется переобучение системы. Переносимость подразумевает возможность применения системы для решения разных задач с минимальной подстройкой.

Адаптация, подстройка

Даже в ходе эксплуатации системы для решения одной и той же задачи, внешние условия могут меняться (дикторы, микрофоны и т.д.). Необходимо решить, как заставить систему улучшать качество работы в ходе эксплуатации и подстраиваться под новые условия.

Языковые модели

Современные системы используют статистические языковые модели для снижения пространства поиска и разрешения неопределенности акустической модели. С ростом объема словаря и ослаблением прочих ограничений, для создания жизнеспособных систем все более важным фактором становится определение правил и ограничений, накладываемых синтаксисом распознаваемого языка. При этом чисто статистические языковые модели будут включать все больше синтаксических и семантических правил и ограничений.

Мера доверия гипотезам

Большинство распознающих систем для упорядочения гипотез сопоставляют каждой гипотезе некоторый вес, число. В настоящее время этот вес, как правило, не является показателем доверия к данной гипотезе (т.е. чем эта гипотеза лучше других). Для задач управления необходимо совершенствовать методы оценки достоверности гипотез.

Слова, не входящие в словарь

Системы разрабатываются для применения с определенным словарем. Однако в реальных условиях всегда будет некоторый процент слов, не входящих в словарь. Должны существовать методы определения наличия таких слов и их обработки.

Спонтанная речь

Системы, работающие в реальных условиях, всегда сталкиваются с разнообразными явлениями, присущими спонтанной речи: фальстарты, заикание, неграмматические конструкции и др. Разработка ATIS решила много вопросов в этой области, но далеко не все.

Просодия (интонация и ритм)

Интонация и ритмическая структура речи несут информацию о смысле произносимых слов. Однако в настоящее время не решен вопрос о том, как интегрировать просодическую информацию в распознающую систему.

Моделирование динамики

Современные системы принимают последовательность участков акустического сигнала и обрабатывают их как статические и независимые друг от друга. Однако известно, что воспринимаемые как фонемы и слова участки сигнала требуют объединения выделенных из сигнала параметров и представления их в динамике. Это отражало бы динамическую артикуляцию. Как смоделировать динамику речевого сигнала для распознающей системы - задача не решенная.

2. ПРЕДСТАВЛЕНИЕ ИСХОДНОГО СИГНАЛА

2.1 Принципы предварительной обработки сигнала

В основанном на статистических методах распознавании речи исходный сигнал подвергается дискретизации с частотой от 6,6 до 20 кГц и обрабатывается с целью представления его в виде последовательности векторов в пространстве признаков, моделирующих состояние речевого тракта диктора. При этом участок исходного сигнала длительностью 10 - 25 мс, что составляет 150 - 300 отсчетов, обычно сильно коррелированных между собой, раскладывается в ортогональный ряд и при заданной величине ошибки представляется в виде 10 - 20 коэффициентов разложения, называемых параметрами.

Эти векторы параметров в последующих шагах используются для оценки вероятности принадлежности вектора или последовательности векторов фонеме или целому слову при проверке гипотезы о принадлежности.

В большинстве систем процессы векторного представления сигнала и оценки вероятности тесно связаны. Поэтому предполагается, что если операция или процедура применяется к речевому сигналу - она относится к этапу представления. Если же она применяется для проверки гипотезы, то она - часть этапа расчета соответствия.

Цель этапа представления сигнала - сохранение всей полезной информации, необходимой для фонетической идентификации рассматриваемого участка речевого сигнала. В то же время представление должно быть максимально невосприимчивым к таким факторам как различия между дикторами, особенности каналов связи, эмоциональное состояние. Представление так же должно быть как можно более компактным.

Использующиеся в современных системах представления в большей степени отражают свойства речевого сигнала, обусловленные формой голосового тракта, чем сигналом возбуждения (основной тон, формируемый гортанью и голосовыми связками). Представления лишь определяют, вибрируют или нет голосовые связки, т.е. является ли звук вокализованным.

Используемые представления почти всегда являются производными от ограниченного энергетического спектра, спектральной плотности мощности сигнала

где x1, …, xl, …, xn - исходная последовательность отсчетов в сегменте; S(ejщ) - спектральные коэффициенты. Применение энергетического спектра целесообразно, поскольку ухо нечувствительно к фазе акустического сигнала .

Кроме того, для энергетического спектра почти всегда используется логарифмическое представление. Это позволяет снизить слишком сильные перепады параметров при значительных колебаниях амплитуды сигнала, а так же превратить мультипликативные акустические эффекты и помехи от применяемого оборудования в аддитивные помехи. Недостатком логарифмического представления является неопределенность логарифма нуля. Это требует ограничения минимума шкалы амплитуд сигнала некоторым ненулевым значением и ограничения самого сигнала снизу для избежание чрезмерной чувствительности к спектральным составляющим с низкой энергией, являющихся в основном шумовыми. .

Рисунок 2.1 - Представления речевого сигнала для распознавания

До расчета спектра сигнал обычно проходит предварительную фильтрацию, обеспечивающую рост усиления сигнала при увеличением частоты с крутизной 6 дБ/октаву для компенсации ослабления, вносимого электрическим трактом. Далее исходный сигнал делится на последовательные, накладывающиеся друг на друга участки, обычно 25 мс длины, обрабатываемые колоколовидной функцией для снижения амплитуды сигнала по краям участка. После чего рассчитывается спектральная плотность мощности.

Полученный энергетический спектр имеет нежелательную гармоническую составляющую на частоте основного тона. Эта составляющая может быть уменьшена группировкой соседних наборов спектральных составляющих до образования группы около 20 полос перед расчетом логарифма мощности. Эти полосы часто делаются последовательно все более широкими с разницей 1 кГц. Возможно так же применение набора цифровых фильтров. Результаты - сходные .

Еще более снижающим корреляцию соседних отсчетов в исходном сигнале является кепстральное представление сигнала. Здесь предполагается, что речь является сигналом на выходе линейной системы с медленно меняющимися параметрами - голосового тракта, возбуждаемой либо последовательностью импульсов основного тона, либо шумом. Анализ речевого сигнала в этом случае состоит в расчете параметров голосового тракта по измеренным параметрам речевого сигнала и оценке их с течением времени . Поскольку сигнал возбуждения x(n) и импульсная характеристика фильтра h(n) взаимодействуют через операцию свертки, задача анализа рассматривается как задача разделения компонент, участвующих в операции свертки. Такая задача называется задачей обратной свертки, или развертки. Для ее решения необходимо найти следующий гомоморфизм: C(x(n)*h(n)) = C(x(n)) + C(h(n)). Этот гомоморфизм может быть осуществлен с помощью следующего преобразования:

c(n) = F-1(ln[ |F(x(n))| ]),(2.2)

которое называется кепстром дискретного сигнала x(n), F и F-1 - соответственно прямое и обратное дискретное преобразование Фурье .

С такой же моделью формирования речевого сигнала связано авторегрессионное представление сигнала (линейное предсказание, LPC). Коэффициенты авторегрессии рассчитываются из условия непосредственной минимизации корреляции между близкими отсчетами речевого сигнала x(ti):

Разные разработчики используют на начальном этапе расчета параметров сигнала разные модели, энергетический спектр или авторегрессию, например, в телефонии обычно применяется авторегрессия, так как во всех современных телефонных вокодерах рассчитываются именно эти параметры. В вычислительных системах обычно рассчитывается спектр, поскольку компоненты для его расчета могут быть использованы другими приложениями. В дальнейшем производится расчет кепстральных коэффициентов Сi, как в наибольшей степени отвечающих задаче распознавания . Расчет кепстра через авторегрессию в вычислительном плане более экономичен, что хорошо для ограниченных ресурсов телефонии . Для компьютеров такого жесткого ограничения нет, но важна универсальность и возможность повторного использования кода, поэтому лучше - спектр. Некоторые системы рассчитывают так же динамику изменений параметров сигнала дСi внутри участка сигнала и между соседними участками.

Различные неизменные внешние факторы, такие как характеристики конкретного телефонного соединения, проявляются как постоянная составляющая (смещение) спектра или кепструма. Разностные, динамические параметры дСi не подвержены таким эффектам. Если динамические параметры первого порядка пропустить через интегратор, будут восстановлены величины, близкие исходным, статическим параметрам Сi. Сходная техника, примененная к последовательностям коэффициентов энергетического спектра, до взятия логарифма, пригодна для снижения помехи в виде стационарного или медленно меняющегося аддитивного шума.

Поскольку кепстральные коэффициенты почти некоррелированы, вычислительно эффективный метод получения достаточно хороших вероятностных оценок в последующем процессе поиска соответствия состоит в вычислении евклидовых расстояний до соответствующих векторов моделей. Расчет расстояний производится после подходящего взвешивания коэффициентов (параметров). Существует множество способов взвешивания, объединяемых в два основных класса: эмпирические и статистические .

Существуют методики, комбинирующие перечисленные методы и позволяющие почти полностью убрать корреляцию параметров, однако, из-за возрастания вычислительных затрат, в настоящее время использующиеся для демонстрационных целей .

2.2 Перспективы

В настоящее время изучается возможность применения на этапе представления исходного сигнала вэйвлет преобразований и нейросетевых методов, позволяющих производить нелинейные операции с исходным сигналом или с результатами других преобразований. Продолжается разработка представлений, более точно отражающих акустику помещения, а так же восстанавливающих артикуляцию по речевому сигналу.

Современные способы представления сигнала используют лишь форму спектра, не учитывая частоту основного тона. Однако известно, что даже в распознавании отдельных слов частота основного тона может быть ключом к лексической идентификации слов. Это касается не только тональных языков, как китайский, но и европейских, поскольку эта частота связана с лексическим ударением. В связной речи основной тон несет информацию о синтаксической структуре предложения и настроении говорящего . Исследования в этой области будут продолжаться.

3. ПОМЕХОУСТОЙЧИВОЕ РАСПОЗНАВАНИЕ РЕЧИ

3.1 Определение помехоустойчивости

Помехоустойчивость (робастность) в распознавании речи связана с необходимостью обеспечения достаточной точности при дестабилизирующих факторах :

При низком качестве входного речевого сигнала,

При существенных для акустических, артикуляторных и фонетических характеристик речи отличиях между условиями обучения и тестирования (работы).

Источниками этих факторов являются:

Акустические помехи в виде аддитивного шума,

Явления линейной фильтрации,

Нелинейные искажения при преобразованиях и передаче исходного сигнала,

Импульсные помехи,

Изменения в артикуляции диктора, вызванные наличием источников шума.

В современных системах, предназначенных для работы в благоприятных акустических условиях, во многом достигнута независимость от диктора, они компенсируют некоторое ухудшение сигнала из-за шума и неизвестной линейной фильтрации. Однако для приложений, работающих в реальных условиях, необходимость в повышении устойчивости очевидна. Даже лучшие современные системы значительно ухудшают качество работы, если распознаваемый сигнал прошел через телефонный канал или если диктор говорит с акцентом. Далее рассматривается устойчивость к искажениям сигнала, вызванным окружающими, внешними источниками помех. Основными подходами к робастности являются динамическая подстройка параметров, применение микрофонных матриц, обработка сигнала с учетом психологических моделей восприятия.

3.2 Динамическая подстройка параметров

Обычно модели адаптации систем к изменению окружающих условий предполагают, что источниками ухудшения качества речи являются аддитивный шум с неизвестным распределением спектральной плотности мощности или сочетание аддитивного шума и линейной фильтрации. Для компенсации этих помех в системе может осуществляться динамическая подстройка акустических параметров как рассчитанных из распознаваемого, входного сигнала, так и хранимых системой акустических моделей высказываний. Существуют три основных подхода к динамической подстройке параметров:

Использование оптимальной оценки для получения новых значений параметров в условиях тестирования,

Применение компенсации, основанной на эмпирическом сравнении речевого сигнала в условиях обучения и тестирования,

Высокочастотная фильтрация значений параметров.

Оптимальная оценка параметров

Используются два основных подхода к оптимальной оценке .

Первый основан на формальной статистической модели, характеризующей разницу между речью, использовавшейся при обучении системы и речью при тестировании системы. Значения параметров моделей оцениваются по тестовым образцам речи, записанным в различном окружении, после чего модифицируются либо рассчитанные параметры входного сигнала, либо акустические модели речевых единиц, хранящиеся в системе. Опыты показывают, что при таком подходе существенно снижается число ошибок при распознавании речевого сигнала с аддитивным шумом. Однако сколько-нибудь серьезно противостоять ухудшению качества речи в реальных условиях этот подход неспособен.

Второй популярный подход состоит в использовании знаний о шуме, чтобы заставить фонетические модели характеризовать речь с шумом. Знания получаются из имеющихся образцов помех и используются для подстройки параметров фонетических моделей (изменений средних значений и отклонений), рассчитанных из речи без помех. Этот подход реализован в технике, называемой параллельным комбинированием моделей. Он дает хорошие результаты для аддитивных, мультипликативных помех и для реального речевого сигнала. Однако в настоящее время слишком большие вычислительные затраты препятствуют его применению в системах распознавания.

Эмпирическое сравнение параметров

Сравниваются параметры, извлеченные из речи без помех с параметрами такой же речи, записанной с помехами. В этом подходе совместное действие различных помех рассматривается как аддитивные нарушения параметров сигнала. При сравнении параметров рассчитываются корректирующие векторы, использующиеся затем для коррекции либо векторов параметров входного распознаваемого сигнала, либо векторов параметров акустических моделей, хранящихся в распознающей системе.

Точность распознавания повышается, если корректирующие векторы полагаются зависящими от: отношения сигнал/шум, расположения в пространстве параметров в пределах заданного отношения сигнал/шум, или предполагаемого соответствия фонем.

Этот общий подход может быть распространен на случаи, когда тестовое окружение неизвестно априори, путем формирования ансамбля корректирующих векторов для множества различных тестовых внешних условий. Корректирующие векторы затем последовательно применяются к моделям речи, начиная с предположительно наиболее вероятного вектора, до нахождения наиболее точного соответствия вектору, полученному из входного сигнала.

Если условия расчета корректирующих векторов близки реальным условиям работы системы, качество ее работы достаточно высоко. Недостатком является необходимость использования стерео записи для создания базы данных акустических моделей .

Применение фильтров верхних частот

Использование высокочастотной или полосовой фильтрации при расчете кепстральных коэффициентов позволяет при минимуме затрат значительно повысить помехоустойчивость системы. Этот метод реализован в алгоритмах RASTA и CMN. Эти алгоритмы сейчас применяются практически во всех системах, где необходима помехоустойчивость .

3.3 Использование матриц микрофонов

Дополнительное улучшение точности распознавания при малом соотношении сигнал/шум может быть достигнуто с использованием матрицы микрофонов. Такая матрица в принципе может реализовать направленную чувствительность с характеристикой, имеющей максимум в направлении диктора и минимумы - в направлении источников помех, аналогично фазированной антенной решетке в радиосвязи. Изменяя фазировку отдельных элементов с помощью сумматоров и линий задержки, можно точно настроить характеристику направленности при изменении условий работы. Одновременно применяются алгоритмы компенсации спектральной окраски, вносимой самой матрицей. Опыты с микрофонной матрицей в офисной обстановке показали уменьшение нормы ошибки до 61% для помехи в виде источника аддитивного шума .

Несмотря на то, что матрица эффективна при помехе в виде аддитивного, независимого шума, она значительно ухудшает показатели при наличии множества отражающих поверхностей, когда помеха - слегка задержанная и ослабленная часть полезного сигнала.

Более продвинутые системы для компенсации помех, связанных с задержкой сигнала, используют для управления матрицей алгоритмы, основанные на взаимной корреляции. Эти алгоритмы способны усиливать акустическое поле в определенных направлениях. Тем не менее, они лишь незначительно улучшают показатели системы по сравнению с простыми алгоритмами задержки и суммирования.

3.4 Психологически обоснованная обработка сигнала

Обработка исходного речевого сигнала с учетом психологических моделей восприятия имитирует различные аспекты восприятия речи человеком. Такие системы обработки обычно включают набор полосовых фильтров, имитирующих частотную чувствительность слуха человека, за которыми следуют устройства нелинейной обработки сигнала в каналах и между каналами.

Недавние оценки распознающих систем показывают, что модели, имитирующие восприятие, обеспечивают лучшую точность распознавания, чем традиционный кепструм, и в условиях помех, и при разнице в условиях обучения и тестирования. Однако эти модели по показателю качества уступают алгоритмам динамической подстройки параметров, кроме того, динамическая подстройка - менее затратная.

Возможно, что проигрыш имитационных моделей связан с применением для классификации Скрытых Марковских моделей, которые оказываются плохо приспособленными для работы с получаемыми параметрами. Ряд исследователей так же полагает, что еще не найден оптимальный набор параметров, рассчитываемый с помощью этих моделей и максимально точно характеризующий речевой сигнал. Поэтому данное направление продолжает привлекать пристальное внимание исследователей.

3.5 Перспективы

Несмотря на очевидную важность, робастность в распознавании речи лишь недавно привлекла внимание исследователей. Значительный успех достигнут лишь для условий довольно «дружественных» помех, таких, как аддитивный шум или линейная фильтрация. Независимость систем от диктора сейчас распространяется только на носителей языка. Для людей, говорящих с акцентом, точность распознавания существенно ниже, даже при подстройке под диктора.

Речь по телефону

Распознавание телефонной речи затруднено, поскольку каждый телефонный канал имеет свои отношение сигнал/шум и частотную характеристику. Кроме того, искажение речи может быть вызвано кратковременной интерференцией или нелинейностями. Приложения для работы в телефонных линиях должны быть способны адаптироваться к разным каналам при малом количестве данных о канале.

Окружение с высоким уровнем шума

Даже при использовании различных методик компенсации шума, точность распознавания существенно падает при отношении сигнал/шум ниже 15 дБ, тогда как человек способен прекрасно слышать речь при значительно более низом отношении.

Перекрестная помеха

Влияние других разговоров, например в одном помещении или наводки по соседнему телефонному каналу, значительно более сложная задача, чем широкополосная шумовая помеха. До сих пор усилия по использованию информации, отличающей распознаваемую речь от мешающей, к существенным результатам не привели.

Быстрая адаптация к акценту в речи

В современном, быстро меняющемся обществе серьезные языковые приложения должны одинаково хорошо понимать как людей, говорящих без акцента, так и с акцентом.

Разработка принципов создания речевых баз данных

Прогресс в помехоустойчивом распознавании будет зависеть так же от разработки принципов создания речевых баз данных и непосредственно от создания таких баз данных. Для этого необходимо собрать, обработать и структурировать множество образцов искажений и помех, свойственных практическим задачам.

4. АКУСТИЧЕСКИЕ МОДЕЛИ

4.1 Место акустической модели в системе

Современные системы распознавания речи реализованы главным образом как программные продукты, генерирующие гипотезы о произносимых последовательностях слов по входному сигналу. Использующиеся в таких системах алгоритмы основаны на статистических методах.

Вектор yt акустических параметров рассчитывается по входному сигналу каждые 10-30 мс. Последовательности этих векторов рассматриваются как наблюдаемые последовательности, генерируемые фонетическими моделями. Исходя из этого рассчитывается вероятность p(ylT/W) наблюдения последовательности векторов ylT при произнесении последовательности (слова) W, другими словами - вероятность генерирования последовательности ylT моделью W. Задавшись последовательностью ylT, можно в ходе поиска по правилу:

найти наиболее вероятную последовательность слов, сгенерировавшую ylT. Эта поисковая процедура находит последовательность слов, имеющую максимальную апостериорную вероятность. Вероятность p(ylT/W) рассчитывается акустической моделью, а p(W) - языковой моделью.

Для систем с большим словарем поиск состоит из двух этапов. На первом, в ходе расчета приблизительных вероятностей в реальном масштабе времени по упрощенным моделям, генерируется решетка из n лучших последовательностей слов. На втором этапе рассчитываются более точные вероятности при ограниченном числе гипотез. Некоторые системы генерируют вероятную последовательность слов за один шаг.

4.2 Акустические модели на основе цепей Маркова

Акустические модели являются элементарными вероятностными моделями базовых лингвистических единиц (т.е. фонем) и используются для представления единиц следующего уровня - слов.

Последовательность акустических параметров, полученная из произнесенной фразы, рассматривается как реализация совокупности процессов, описываемых с помощью Скрытых Марковских моделей (СММ). СММ - совокупность двух случайных процессов:

Скрытой цепи Маркова, отвечающей за изменения во времени,

Множества наблюдаемых стационарных процессов, отвечающих за спектральные изменения.

СММ доказала на практике, что в состоянии справиться с основными источниками неоднозначности речевого сигнала, например вариациями в произнесении фонемы, позволяя при этом создавать системы со словарем из десятков тысяч слов.

Структура СММ

Модель определяется как пара случайных процессов (Х, У). Процесс Х - цепь Маркова первого порядка, реализации которой не наблюдаются непосредственно. Реализации процесса У берут свои значения из пространства акустических параметров, наблюдаются непосредственно, а их распределения зависят от реализаций процесса Х .

СММ характеризуется двумя формальными предположениями. Первое касается цепи Маркова и гласит, что следующее состояние цепи определяется только текущим состоянием и не зависит от предшествующей траектории. Второе гласит, что текущее распределение процесса У, откуда берется наблюдаемое значение акустического параметра, зависит только от текущего состояния цепи Маркова (процесса Х), а не от предыдущих траекторий процессов Х и У.

В приложении 1 приведены математическое определение модели, пример генерирования наблюдаемой последовательности и расчетные формулы.

Для переоценки параметров модели в ходе ее обучения используется алгоритм Баума-Уэлша, основанный на переоценке вероятности по формуле Байеса.

СММ можно классифицировать по элементам матрицы В, которые по своей природе являются функциями распределения.

Если функции распределения определены на конечном пространстве, то модель будет дискретной. В этом случае наблюдаемая реализация - вектор значений из конечного алфавита в М элементов. Для каждого элемента вектора Q, выбираемого из множества V, определена ненулевая дискретная плотность {w(k)/k=1,…,M}, формирующая распределение. Такое определение предполагает независимость элементов множества V.

Если распределения определены как плотности вероятности на непрерывном пространстве, то модель будет непрерывной. В этом случае к функциям распределения предъявляются требования с целью ограничения числа оцениваемых параметров до приемлемых пределов. Наиболее популярный подход состоит в использовании линейной комбинации плотностей g из семейства G стандартных распределений с простой параметрической формой. Обычно в качестве g используется многомерное нормальное распределение, характеризующееся вектором математического ожидания и ковариационной матрицей. Число стандартных распределений, участвующих в линейной комбинации при формировании результирующего распределения, обычно ограничивается вычислительными возможностями и имеющимся объемом учебных данных .

Настройка параметров распределений в ходе обучения непрерывной модели требует большого числа учебных образцов. При их недостатке прибегают к использованию псевдонепрерывной модели, в которой для формирования линейной комбинации используется стандартный набор базовых плотностей. Линейные комбинации отличаются друг от друга только весовыми коэффициентами. Общий подход состоит в связывании каждой координаты входного вектора со своим, отличающимся от других, набором базовых плотностей.

4.3 Моделирование слов

Фонетическая декомпозиция

Слово обычно представляется сетью фонем. Каждый путь в сети представляет вариант произношения слова .

Одна и та же фонема, произнесенная в разных контекстах, может иметь отличающиеся акустические параметры, а значит моделироваться разными распределениями. Аллофоны - модели, представляющие фонему в разных контекстах. Решение, сколько аллофонов будут представлять конкретную фонему, зависит от многих факторов, основной из которых - количество обучающих данных для настройки параметров акустической модели.

Существует несколько разновидностей аллофонной модели. Одна из них - полифоны. В принципе произнесение фонемы отличается во всех словах, где она встречается, поэтому требует разных аллофонов. При большом объеме словаря, обучить такую модель практически невозможно из-за недостатка обучающих данных. Поэтому используется представление аллофонов на нескольких уровнях детализации: слово, слог, трифон, дифон, контекстно-независимая фонема. Вероятностные распределения аллофонов на разных уровнях детализации могут быть получены комбинированием распределений более детальных уровней представлений. Потеря особенностей компенсируется улучшением оценки статистических параметров модели при ее обучении благодаря возрастанию отношения объема обучающих данных к числу оцениваемых параметров модели.

Другая разновидность заключается в кластеризации аллофонов по некоторому числу возможных классов контекстов. Поиск класса проводится автоматически, с помощью классификационно-регрессионного дерева (CART). Это - бинарное дерево, в корне находится фонема, с каждым узлом ассоциирован вопрос о контексте типа: «Предыдущая фонема носовая согласная?» Для каждого возможного ответа (да, нет) существует ветвь к другому узлу. Листьями дерева являются аллофоны. Существуют алгоритмы роста и обрезки CART, автоматически связывающие с узлами вопросы из созданного вручную пула .

Каждый аллофон в системах распознавания моделируется с помощью СММ. В общем, все модели могут быть построены с использованием распределений, взятых из одного, разделяемого пула или до нескольких тысяч кластеров, называемых сенонами.

Модели аллофонов более высокого уровня, например слов, могут быть так же построены конкатенацией базовых моделей с помощью связующих переходов и распределений. Такие строительные блоки называют фенонами и мультонами.

Другой подход к моделированию слов состоит в использовании кодовой книги - набора эталонных признаков, являющихся ее словами. По входному вектору параметров сигнала находится наиболее близкий эталонный признак из кодовой книги, которому соответствует свой номер. Для кодовой книги используется стандартный набор базовых плотностей, слова представляются последовательностями номеров признаков. Каждая последовательность номеров затем моделируется с помощью СММ .

Определение границ и вероятностей слов

В общем, речевой сигнал и его представления не дают четких указаний на границы между словами, следовательно, определение границы слов является частью процесса выдвижения гипотезы, выполняемого как поиск. В ходе этого процесса модели слов сравниваются с последовательностью акустических параметров. В вероятностных рамках сравнение акустических последовательностей с моделями включает расчет вероятности генерирования данной последовательности данной моделью, т.е. расчет p(ylT/W). Это - ключевая составляющая процесса распознавания.

При заданной временной последовательности: 1, 2, …, t, t+1, …, T-1, T :

Вероятность dt(i) того, что к моменту t наблюдалась последовательность o1,o2…ot и модель находится в состоянии Si (forward algorithm):

для всех 1?i?N, 1?j?N, t = 1,2,…,T-1:

при t = 1: d1(i) = пi bi(o1);(4.2)

при t > 1: dt(j) = .(4.3)

Вероятность ft(i) наблюдения последовательности ot+1,ot+2,…oT начиная с момента t+1до Т при условии, что в момент t модель находится в состоянии Si (backward algorithm):

для всех 1?i?N, 1?j?N, t = T-1,T-2,…,1:

при t = T: fT(i) = 1;(4.4)

при t < T: ft(i) = .(4.5)

Полная вероятность того, что модель за Т тактов пройдет какую-либо траекторию (вероятность соответствия последовательности и модели) можно рассчитать тремя способами:

P(O/л) = ;(4.6)

P(O/л) = ;(4.7)

P(Q/л) = dt(i) ft(i) = .(4.8)

Пример расчета вероятности приведен в приложении 2.

Для расчетов используются модели в виде линейной последовательности состояний, имеющие начало и конец. Переходы возможны только на месте и от начала к концу без перескока через состояния. Перед расчетом соответствия исходная последовательность векторов параметров делится на сегменты, равные по длине данной модели.

4.4 Перспективы

Достигнутые в последние годы значительные успехи в акустическом моделировании позволили реализовать хорошее качество распознавания при использовании большого словаря в реальном масштабе времени, при этом расходуя приемлемое количество ресурсов. Однако существует ряд аспектов, требующих улучшения. В первую очередь это касается адаптации к разным дикторам и разному акустическому окружению, в том числе и при наличии помех. Существуют так же трудности с обработкой заиканий, фальстартов, отсутствующих в словаре слов и других особенностей, присущих спонтанной речи.

Основными направлениями современных исследований являются акустическая помехоустойчивость, улучшение систем акустических параметров и моделей, работа с большим лексиконом, поддержка нескольких контекстов и нескольких языков, разработка методов автоматического обучения систем.

5. ЯЗЫКОВЫЕ МОДЕЛИ

5.1 Место языковой модели в системе

Системы распознавания речи преобразуют акустический сигнал в орфографическое представление произносимого высказывания. Распознаватель строит гипотезы, пользуясь конечным словарем. Для простоты предполагается, что слово однозначно определяется своим произношением.

Значительный прогресс в решении проблемы распознавания достигнут с началом использования статистической модели совместного распределения p(W,O) последовательности произносимых слов W и соответствующей акустической последовательности О. Этот подход впервые был применен компанией IBM под названием “source-channel model” (модель источник-канал). В ней определяется оценка соответствия выбранной словарной последовательности наблюдавшемуся акустическому факту О с помощью апостериорного распределения p(W/O) .

Для минимизации ошибки система выбирает словарную последовательность, максимизирующую это апостериорное распределение:

где p(W) - вероятность последовательности слов W, p(O/W) - вероятность наблюдения акустической последовательности О при произнесении последовательности слов W, p(O) - полная вероятность наблюдения последовательности О по всем имеющимся акустическим моделям. p(O/W) = p(ylT/W) = P(O/ л) и рассчитывается на этапе акустического моделирования с помощью СММ и называется каналом. p(O) полагается равной 1. Априорная вероятность p(W) рассчитывается с помощью языковой модели (ЯМ).

Аналогичная модель распознавания применяется для распознавания печатных и рукописных текстов .

5.2 Языковая модель на основе триграмм

Для заданной последовательности слов W={w1,…,wn} ее вероятность можно представить как:

w0 определяется подходящим для обеспечения начальных условий. Вероятность каждого следующего слова wi зависит от уже произнесенной последовательности hi. При таком определении сложность модели растет экспоненциально с ростом произнесенной последовательности слов. Чтобы упростить модель, сделав ее пригодной для практики, предполагается, что только некоторые аспекты истории влияют на вероятность следующего слова. Один из способов достичь этого - использовать некоторую операцию ц(), разделяющую историческое пространство на К эквивалентных классов. Далее можно применить модель:

Наибольший успех в последние 20 лет достигнут с помощью простых моделей n-грамм. Чаще всего применяются триграммы, где только два предыдущие слова определяют вероятность следующего слова. В этом случае вероятность последовательности слов выглядит так:

Для оценки априорных вероятностей p(W) ЯМ необходим большой объем обучающего текстуального материала. В ходе оценки рассчитываются частоты:

где с123 - число появлений последовательности слов {w1, w2, w3}, с12 - число появлений последовательности {w1, w2,}. Для словаря объема V существует V3 возможных триграмм, при словаре 20 тыс. слов - 8 трлн. Очевидно, что многие из этих триграмм не встретятся в обучающих последовательностях, поэтому для них f3(w3/w1, w2) = 0. Чтобы соответствующие вероятности не были равны нулю, проводится линейная интерполяция частот триграмм, биграмм и слов, а так же их равномерное распределение на словаре:

f1() и f2() оцениваются подсчетом соответствующих биграмм и триграмм. Коэффициенты л линейной интерполяции оцениваются поиском максимума вероятности для новых данных, не участвовавших в подсчете частот n-грамм. При максимизации используется forward-backward алгоритм (формулы (4.2) - (4.5)).

В общем случае может использоваться более одного л вектора. Так же целесообразно учесть большее доверие частотам триграмм, оцененным на большем количестве обучающих последовательностей. Для этого весовые коэффициенты л делаются зависимыми от групп биграмм и слов b(c12, c2), составляющих историю для рассматриваемого слова. Этот метод называется deleted interpolation . Применяются и другие сглаживающие схемы. При моделировании языка с помощью триграмм объем словарных данных обычно колеблется от 1 млн. до 500 млн. слов при соответственном объеме словаря от 1 тыс. до 267 тыс. слов.

5.3 Сложность (перплексность)

Для сравнения распознающих систем можно использовать норму ошибки. Этот показатель лучше всего оценивает языковые модели. Однако есть менее затратный способ оценки ЯМ. В нем используется величина, характеризующая количество информации - энтропия. Идея заключается в расчете энтропии для нового, не использовавшегося при создании модели текста. Сравнивается словарная энтропия, рассчитанная непосредственно по тексту, с энтропией, рассчитанной по ЯМ. Та ЯМ, чья энтропия будет ближе всего к текстовой, и будет лучшей .

Обозначим как р(х) правильное распределение вероятности слов в сегменте текста х, состоящем из k слов. Определим энтропию текста по словарному базису как:

Если слова в тексте равновероятны, а размер текста - V, тогда H=log2V, для других распределений H?log2V. Для определения вероятности в сегменте текста можно использовать ЯМ. Значение логарифма вероятности для ЯМ составляет:

где pЮ(wi/hi) - вероятности, определенные данной ЯМ. Предел, т.е. рассчитанный по ЯМ, - не ниже энтропии текста. Очевидно, что цель сравнения разных ЯМ - найти такую, для которой логарифм вероятности, рассчитанный по ЯМ, будет ближе всего к энтропии, рассчитанной по тексту.

Перплексность характеризует уровень логарифма вероятности ЯМ и определяется как 2lp. Грубо говоря, это - средний объем словаря, из которого выбирается очередное слово при распознавании. Перплексность зависит от использующегося речевого домена. Значения перплексности для некоторых речевых доменов приведены в таблице 5.1 .

речь распознавание акустический языковый

Таблица 5.1. Перплексность речевых доменов

5.4 Объем словаря

Норма ошибки не может быть ниже, чем процент произнесенных слов, не входящих в словарь. Поэтому основная часть построения ЯМ заключается в разработке словаря, максимально охватывающего тексты, которые, вероятно, будет распознавать система. Это остается задачей, решаемой людьми.

При создании словаря сначала подбираются тексты, характеризующие задачу, с которой будет работать система. Затем тексты с помощью средств автоматизации делятся на слова. Далее каждому слову сопоставляется набор его вариантов произношения, включая возможные будущие варианты. Все полученные варианты произношения используются для составления триграмм.

В таблице 5.2 приводится процент охвата распознающей системой новых текстов в английском языке, при использовании словаря фиксированного объема. У языков с большим числом форм слова и зависимостями в словообразовании (немецкий, французский), для такой же степени охвата требуется словарь значительно большего размера.

Более рациональный подход предусматривает составление персонифицированного словаря для каждого пользователя распознающей системы в дополнение к фиксированному словарю. Таблица 5.2 представляет рост охвата новых слов такой, динамически настраиваемой системой при начальном, фиксированном объеме словаря 20 тыс. слов. Данные сравниваются с системой, использующей статический словарь того же объема при распознавании текста представленной длины .

Таблица 5.2. Качество распознавания новых текстов

5.5 Усовершенствованные языковые модели

Существует множество усовершенствований ЯМ на основе триграмм. Основные из них упомянуты ниже .

Модели классов

Вместо слов в языковой модели можно использовать набор классов слов. Классы могут пересекаться, поскольку слово может принадлежать разным классам. Классы могут основываться на частях речи, морфологическом анализе слова, могут определяться автоматически по статистическим связям. Общая модель классов выглядит так:

где ci - классы. Если классы не пересекаются, то:

Перплексность такой модели выше, чем у основанной на триграммах, однако она снижается при комбинировании моделей этих двух типов.

Динамические модели

Здесь учитывается прошлое, продолжительностью во весь документ. Это делается для обнаружения часто встречающихся слов (например, в этом тексте часто встречающимся является слово «модель»). Использование КЭШа для таких слов позволяет придать ЯМ большую динамику, сокращая время поиска.

Комбинационные модели

Еще один подход состоит в разделении всей речевой базы на несколько кластеров. Для моделирования нового текста используется линейная комбинация триграммных моделей из разных кластеров:

где pj() оценивается по j - му текстовому кластеру.

Структурные модели

В этих моделях вместо влияния на вероятность слова ближайшей предшествующей истории, используется синтаксический разбор. С помощью такого разбора устанавливается связь между удаленными словами, что недавно было предложено учитывать при составлении удаленных биграмм.

5.6 Перспективы

Основными областями, где сейчас сосредоточены усилия, являются :

Выбор словаря

Как определить словарь нового речевого домена, практически персонализировать словарь для пользователя, сделав охват текста максимальным. Эта проблема наиболее существенна для языков с большим числом форм слова и восточных языков, где понятие слова определено нечетко.

Адаптация речевого домена

Это задача настройки эффективной ЯМ для доменов, не обладающих большим объемом словарных данных, доступных машине, а так же определения темы разговора. Это позволило бы применить для распознавания речи специфическую, тематическую модель.

Использование структуры языка

Современный уровень оценки качества работы системы не позволяет улучшать работу системы, используя структуру языка. Разработка языковой модели, основанной на структуре языка, может стать ключом к прогрессу в языковом моделировании. Современные достижения, основанные на вероятностных моделях, отражают детский этап в развитии моделирования языка. Прогресс здесь связан с ростом структуризации данных.

ЗАКЛЮЧЕНИЕ

В данной работе рассмотрены основные принципы построения систем распознавания речи на современном этапе развития, их классификация, решаемые ими задачи. Рассмотрен современный подход к помехоустойчивости систем.

Представлена структура системы, основные задачи, решаемые ее компонентами, принципы предварительной обработки исходного сигнала, построения акустических и языковых моделей,

Подобные документы

Цифровая обработка сигналов и ее использование в системах распознавания речи, дискретные сигналы и методы их преобразования, основы цифровой фильтрации. Реализация систем распознавания речи, гомоморфная обработка речи, интерфейс записи и воспроизведения.

дипломная работа , добавлен 10.06.2010

Преимущества радиоканальных охранных систем. Основные направления кодирования речи: кодирование формы (Waveform coding) и источника сигнала (Source coding). Структурная схема процесса обработки речи в стандарте GSM. Оценка качества кодирования речи.

реферат , добавлен 20.10.2011

Задачи при передаче речи и данных. Цифровая передача речи. Категории методов цифрового кодирования речи. Кодеры формы сигнала. Вид амплитудной характеристики компрессора. Дискретная модель речеобразования. Особенности метода кратковременного анализа.

контрольная работа , добавлен 18.12.2010

Рассмотрение основных этапов в решении задачи оптимизации приема сигнала. Изучение методов фильтрации и оптимизации решений. Вероятностный подход к оценке приёма сигнала; определение вероятности ошибок распознавания. Статические критерии распознавания.

презентация , добавлен 28.01.2015

Кодирование речи RPE – LTP – кодер на 16 кбит/с. Структура декодера речи в стандарте GSM. Коэффициенты отражения кратковременного предсказания по методу Берга для РФ 8-го порядка. Спектральная характеристика постфильтра. Формирование формантных областей.

реферат , добавлен 15.11.2010

Структурные схемы гомоморфной обработки и анализа речевых сигналов. Комплексный кепстр речи. Компонент речевого сигнала. Период основного тона и частоты формант. Модуль передаточной функции речевого тракта. Оценивание основного тона на основе кепстра.

реферат , добавлен 19.11.2008

Общая классификация систем и сетей радиодоступа. Классификация систем радиодоступа по параметрам и характеристикам радиоинтерфейса. Системы с аналоговой и цифровой передачей. Услуги цифровой передачи речи. Классификация по решаемым прикладным задачам.

реферат , добавлен 06.10.2010

Состояние проблемы автоматического распознавания речи. Обзор устройств чтения аудио сигналов. Архитектура системы управления периферийными устройствами. Схема управления электрическими устройствами. Принципиальная схема включения электрических устройств.

дипломная работа , добавлен 18.10.2011

Информационные характеристики и структурная схема системы передачи; расчет параметров аналого-цифрового преобразователя и выходного сигнала. Кодирование корректирующим кодом. Определение характеристик модема; сравнение помехоустойчивости систем связи.

курсовая работа , добавлен 28.05.2012

Структура устройств обработки радиосигналов, внутренняя структура и принцип работы, алгоритмами обработки сигнала. Основание формирование сигнала на выходе линейного устройства. Модели линейных устройств. Расчет операторного коэффициента передачи цепи.

Коммерческие программы по распознаванию речи появились в начале девяностых годов. Обычно их используют люди, которые из-за травмы руки не в состоянии набирать большое количество текста. Эти программы (например, Dragon NaturallySpeaking, VoiceNavigator) переводят голос пользователя в текст, таким образом, разгружая его руки. Надёжность перевода у таких программ не очень высока, но с годами она постепенно улучшается.

Увеличение вычислительных мощностей мобильных устройств позволило и для них создать программы с функцией распознавания речи. Среди таких программ стоит отметить приложение Microsoft Voice Command, которое позволяет работать со многими приложениями при помощи голоса. Например, можно включить воспроизведение музыки в плеере или создать новый документ.

Интеллектуальные речевые решения, позволяющие автоматически синтезировать и распознавать человеческую речь, являются следующей ступенью развития интерактивных голосовых систем (IVR). Использование интерактивного телефонного приложения в настоящее время не веяние моды, а жизненная необходимость. Снижение нагрузки на операторов контакт-центров и секретарей, сокращение расходов на оплату труда и повышение производительности систем обслуживания - вот только некоторые преимущества, доказывающие целесообразность подобных решений.

Прогресс, однако, не стоит на месте и в последнее время в телефонных интерактивных приложениях все чаще стали использоваться системы автоматического распознавания и синтеза речи. В этом случае общение с голосовым порталом становится более естественным, так как выбор в нем может быть осуществлен не только с помощью тонового набора, но и с помощью голосовых команд. При этом системы распознавания являются независимыми от дикторов, то есть распознают голос любого человека.

Следующим шагом технологий распознавания речи можно считать развитие так называемых Silent Speech Interfaces (SSI) (Интерфейсов Безмолвного Доступа). Эти системы обработки речи базируются на получении и обработке речевых сигналов на ранней стадии артикулирования. Данный этап развития распознавания речи вызван двумя существенными недостатками современных систем распознавания: чрезмерная чувствительность к шумам, а также необходимость четкой и ясной речи при обращении к системе распознавания. Подход, основанный на SSI, заключается в том, чтобы использовать новые сенсоры, не подверженные влиянию шумов в качестве дополнения к обработанным акустическим сигналам.

На сегодняшний день можно выделить пять основных направлений использования систем распознавания речи:

Голосовое управление - способ взаимодействия и управления работой устройства при помощи голосовых команд. Системы голосового управления малоэффективны для ввода текста, зато удобны для ввода команл, таких как:

Виды систем

На сегодняшний день существует два типа систем распознавания речи - работающие «на клиенте» (client-based) и по принципу «клиент-сервер» (client-server). При использовании клиент-серверной технологии речевая команда вводится на устройстве пользователя и через Интернет передается на удаленный сервер, где обрабатывается и возвращается на устройство в виде команды (Google Voice, Vlingo, пр.); ввиду большого количества пользователей сервера система распознавания получает большую базу для обучения. Первый вариант работает на иных математических алгоритмах и встречается редко (Speereo Software) - в этом случае команда вводится на устройстве пользователя и обрабатывается в нем же. Плюс обработки «на клиенте» в мобильности, независимости от наличия связи и работы удаленного оборудования. Так, система, работающая «на клиенте» кажется надежнее, но ограничивается, порой, мощностью устройства на стороне пользователя.

Название устройства (фирма, страна)	Метод анализа и распознавания	Вид распознаваемой речи	Объем словаря, слова	Надежность распознавания, %	Допустимый уровень помех	Способ адаптации к директору	Наличие телефонного интерфейса	Наличие синтезатора речи	Область применения
РЕЧЬ-121 (СССР)	Полосный, ДП	Изолированные слова (слитная речь)		99 (93 на 200 слов)		(1-10)-кратное произнесение	Есть	Есть	САПР, АСУ, АСУПТ
БАРС (СССР)	То же	Изолированные слова				Однократное произнесение	То же	То же	САПР
СИБИРЬ-1 (СССР)	»	То же				То же	Нет	»	Диспетчерские системы
СИРИУС-1 (СССР)	Клиппированный сигнал, ДП	»				»	То же	»	Специальное

4.4. Перспективные зарубежные системы
речевого общения

Из всего разнообразия зарубежных промышленных СРО рассмотрим системы, которые, на наш взгляд, являются наиболее перспективными в плане реализации в них как новых теоретических моделей, так и достигнутых показателей качества синтеза и распознавания речи.

Примером высококачественного синтезатора, с помощью которого можно воспроизвести близкую к естественной речь различного темпа и оттенков непосредственно по тексту неограниченного словаря, является устройство DES-talk. Устройство DES-talk (см. табл. 1.1) представляет собой блок размером 10 ´ 45 ´ 30 см, на задней панели которого расположены разъемы для подключения ЭВМ, видеотерминала и печатающего устройства, различных устройств вывода информации, в том числе телефона, индикатора на светодиодах, регулятора громкости. Высокое качество синтезатора DES-talk обусловлено большой библиотекой используемых правил, возможностью выбора словаря по желанию пользователя, качеством аппаратных средств для преобразования речи. Пользователь может выбрать семь различных голосов, в том числе стандартные женский, мужской, детский, а также низкий мужской и голос пожилого человека.

В устройстве DES-talk процесс преобразования текстовой информации в речевую разделяется на три уровня. На первом слова преобразуются в цифровую форму в соответствии с кодом ASCII и разбиваются на фонемы. При этом используются набор правил преобразования букв в звуки и два словаря. Один содержит 6000 слов, другой - около 150 специфических терминов, иностранных слов и аббревиатур, вводимых самим пользователем. Преобразования первого уровня начинаются с поиска эталонных слов, соответствующих вводимому орфографическому тексту, в большом словаре. Если эталоны найдены, то текст, преобразованный в фонемную форму, сразу передается на второй уровень обработки. Если эталоны не найдены ни в одном из словарей, то вводимый текст обрабатывается в соответствии с правилами преобразования букв в звуки и затем передается на второй уровень. На втором уровне производится считывание фонем, синтаксический анализ, определяются интонация, продолжительность и ударение в словах, выполняются акустические расчеты. На третьем уровне осуществляются окончательные преобразования входной текстовой информации и синтез речи. Синтезирванные цифровые сигналы передаются со скоростью не менее 120 Кбит/с в стандартный цифроаналоговый преобразователь (ЦАП). В синтезаторе DES-talk используются эвристические правила для оценки влияния окружающих слов на произношение, интонацию, продолжительность и ударение в данном слове.

Программное обеспечение для синтезатора DES-talk практически аналогично программному обеспечению для существующих алфавитно-цифровых терминалов, работающих в стандарте ASCII, за исключением модулей, определяющих формат данных. Поэтому создание программного обеспечения не вызывает трудностей, что открывает синтезатору DES-talk широкие области применения.

Создание перспективных моделей распознавания речи связано со стремлением достичь высокой надежности при работе с большими словарями (свыше 1000 слов) в режиме слитного произнесения. Наиболее близко к такому идеалу подходит система KVS-3000, словарь которой содержит 10 000 слов, а точность распознавания 95 %. Для подготовки устройства к работе весь набор эталонных слов должен быть произнесен трижды, поэтому память устройства KVS-30 000 рассчитана на хранение 30 000 слов. Среднее время распознавания - около 500 мс.

Фирма «Verbex» (США) разработала мощную систему распознавания непрерывной речи - модель Verbex-30 000, позволяющую распознавать предложения любой длины, состоящие из отдельных или слитно произносимых слов. Эта система ориентирована на голос одного диктора, при смене диктора необходима перезапись в ОЗУ для хранения эталонов слов. Модель Verbex-30 000, построенная по архитектуре «звезды», включает 2-4 таких речевых процессора и может оперировать 120-360 словами. Каждый процессор содержит ЗУ емкостью 0,25 Мбайт для хранения данных, а также ЗУ для хранения 4000 микрокодовых инструкций, каждая длиной 64 бит. Кроме того, гибкость конструкции системы, обеспеченная развитой структурой элементов сопряжения, позволяет использовать память центральной ЭВМ. Быстродействие речевого процессора - 5 млн опер./с.

Микропроцессорная архитектура системы позволяет производить операции с высоким быстродействием, что является необходимым условием для выполнения алгоритма распознавания непрерывной речи. Процесс распознавания, который заключается в подборе последовательности эталонных слов, максимально соответствующей произнесенной пользователем, осуществляется ДП-методом. Входные речевые сигналы усиливаются, фильтруются и кодируются аудипроцессором, а затем передаются в управляющий процессор с интервалом 10 мкс. Управляющий процессор распределяет сигнал между речевыми процессорами, которые выделяют его фонетические характеристики. Разработчики системы определили, что для обеспечения точности распознавания 99 % достаточно 16 таких характеристик. Процесс распознавания в управляющем процессоре и поиск эталона производятся одновременно, т. е. когда процессор «улавливает» окончание речи.

Во избежание влияния на окончательный результат распознавания ошибок, возможных на первом этапе, система постоянно проверяет множество параллельных гипотез, сравнивая ввод данных с грамматически обозначенным набором всех нормальных произношений. Ответ задерживается до момента проверки всех гипотез и совпадения произнесенного с эталоном.

4.5. Тенденции применения средств
речевого общения

До последнего времени большинство работ, связанных с созданием СРО, базировалось на идее формирования акустических эталонов речевых элементов разных уровней (фонем, слогов, слов). При этом распознавание было реализовано как обнаружение и идентификация в потоке речи этих акустических эталонов. В настоящее время стало очевидным, что такой подход малоперспективен из-за значительной вариативности акустических характеристик речевого сигнала, связанной как с лингвистическими (эффекты коартикуляции, редукции, ассимиляции), так и с экстралингвистическими факторами (индивидуальные особенности голосов дикторов, различия в их произносительных навыках, состояние проводящей среды и др.). Особенно большую вариантность имеют акустические характеристики фонем. Поэтому в большинстве промышленных систем распознавания речи отказались от пофонемного анализа и приняли слово в качестве минимального распознаваемого элемента. Данный подход, хотя и дал на определенном этапе речевых исследований зримые результаты, оказался неплодотворным при решении сложных задач распознавания, таких, как распознавание речи без подстройки под диктора или создание систем с большими словарями. Это заставило вернуться к идее пофонемного анализа речи на новом качественном уровне, который предполагает моделирование различных аспектов процесса переработки информации человеком при восприятии речи, использование знаний, накопленных в лингвистике, теории восприятия и психологии. При таком подходе одной из кардинальных задач распознавания речи является задача обнаружения и моделирования тех механизмов восприятия речи человеком, которые обеспечивают устойчивость и стабильность воспринимаемых речевых элементов в условиях их огромной акустической вариативности.

Все большее распространение получает подход к решению задачи распознавания речи, связанный с чтением динамических спектрограмм неизвестного речевого сигнала фонетистом-экспертом. Интерес к экспериментам по чтению спектрограммы связан, во-первых, с тем, что они демонстрируют богатство фонетической информации, заключенной в речевом сигнале, представленном в виде трехмерной (частота - время - интенсивность) спектральной картины, а во-вторых, с тем, что они позволяют воплотить знания и процедурные навыки эксперта в системах распознавания речи. Исследования по чтению спектрограммы ведутся в разных странах, и в настоящее время главным в этих исследованиях является проблема выявления и формализации знаний
и процедурных навыков экспертов. Оказалось, что это весьма сложный процесс, т. к. эксперты не всегда способны выразить принципы и правила, которыми они руководствуются в ходе акустико-фонетического декодирования речевых спектрограмм. Одной из существенных проблем является воплощение в алгоритме правил и знаний, которые кажутся эксперту очевидными (например, F 420 не может быть выше 2500 Гц) либо сложно формулируемыми (например, правило определения компактности взрыва смычных). Для преодоления этих трудностей, связанных с извлечением и записью знаний эксперта, используются экспертные системы. Экспертные системы отличаются от обычных компьютерных программ тем, что они могут решать задачи, не имеющие жестких алгоритмических решений, и осуществлять выводы, основанные на неполной или недостоверной информации. Поэтому они гораздо более приспособлены для моделирования гибкой деятельности человека, что и было использовано в речевых исследованиях. Необходимо подчеркнуть, что в этих исследованиях ЭС применяются именно как инструмент анализа для накопления базы знаний в процессе взаимодействия системы и эксперта. Использование ЭС в качестве системы распознавания неэффективно.

Вторая существенная трудность при моделировании деятельности фонетиста-эксперта заключается в том, что визуальный анализ спектрограмм, лежащий в основе декодирующих действий эксперта, не менее сложен, чем слуховая обработка речевого сигнала. При формализации чтения спектрограмм возникает сложная проблема извлечения акустических признаков, легко выделяемых зрительной системой человека. При разработке ЭС многие исследователи эту трудность просто обходят. Однако уже из самого рассмотрения возникшей ситуации логически вытекает представление о наличии некоторого промежуточного уровня кодирования речевой информации при переходе от параметрического описания спектра к его фонетической интерпретации. Более того, необходимость разработки принципов промежуточного описания речевых сигналов выделяется в качестве центральной проблемы автоматического распознавания речи. Отмечается, что только промежуточное описание позволяет перекинуть мост между непосредственно наблюдаемым непрерывным акустическим сигналом и дискретным лингвистическим описанием. Промежуточное представление описывает «поведение» акустических характеристик, которое в значительной степени является инвариантным при переходе от диктора к диктору и зависит, главным образом, от контекстного взаимодействия фонетических единиц. При этом промежуточное представление, как правило, выражается в качественном виде и описывается в терминах наличия - отсутствия определенных акустических объектов, высокого - низкого положения в спектре или сильного - слабого проявления той или иной энергетической составляющей.

Таким образом, в процессе акустико-фонетического декодирования осуществляется вначале переход от количественных изменений к качественному описанию, а затем от качественных описаний к признакам фонем. Как правило, единицы промежуточного уровня представления речевой информации называются акустическими ключами, акустическими признаками или дискрипторами.

В России работы по чтению спектрограмм фонетистами-экспертами, выработке правил их фонемной и словесной интерпретации проводятся с 1980 года. Полученные результаты позволили приступить к созданию аппаратно-программной модели анализа речи, в основу которой положены алгоритмы чтения спектрограмм.

15 июля 2009 в 22:16

Распознавание речи. Часть 1. Классификация систем распознавания речи

Искусственный интеллект

Эпиграф

В России, направление систем распознавания речи действительно развито довольно слабо. Google давно анонсировала систему записи и распознавания телефонных разговоров… Про системы похожего масштаба и качества распознавания на русском языке, к сожалению, я пока не слышал.

Но не нужно думать, что за рубежом все уже все давно открыли и нам их никогда не догнать. Когда я искал материал для этой серии, пришлось перерыть тучу зарубежной литературы и диссертаций. Причем статьи и диссертации эти были замечательных американских ученых Huang Xuedong; Hisayoshi Kojima; DongSuk Yuk и др. Понятно, на ком эта отрасль американской науки держится? ;0)

В России я знаю только одну толковую компанию, которой удалось вывести отечественные системы распознавания речи на коммерческий уровень: Центр речевых технологий . Но, возможно, после этой серии статей кому-нибудь придет в голову, что заняться разработкой таких систем можно и нужно. Тем более, что в плане алгоритмов и мат. аппарата мы практически не отстали.

Классификация систем распознавания речи

На сегодняшний день, под понятием “распознавание речи” скрывается целая сфера научной и инженерной деятельности. В общем, каждая задача распознавания речи сводится к тому, чтобы выделить, классифицировать и соответствующим образом отреагировать на человеческую речь из входного звукового потока. Это может быть и выполнение определенного действия на команду человека, и выделение определенного слова-маркера из большого массива телефонных переговоров, и системы для голосового ввода текста.

Признаки классификации систем распознавания речи

Каждая такая система имеет некоторые задачи, которые она призвана решать и комплекс подходов, которые применяются для решения поставленных задач. Рассмотрим основные признаки, по которым можно классифицировать системы распознавания человеческой речи и то, как этот признак может влиять на работу системы.

Размер словаря. Очевидно, что чем больше размер словаря, который заложен в систему распознавания, тем больше частота ошибок при распознавании слов системой. Например, словарь из 10 цифр может быть распознан практически безошибочно, тогда как частота ошибок при распознавании словаря в 100000 слов может достигать 45%. С другой стороны, даже распознавание небольшого словаря может давать большое количество ошибок распознавания, если слова в этом словаре очень похожи друг на друга.
Дикторозависимость или дикторонезависимость системы. По определению, дикторозависимая система предназначена для использования одним пользователем, в то время как дикторонезависимая система предназначена для работы с любым диктором. Дикторонезависимость – труднодостижимая цель, так как при обучении системы, она настраивается на параметры того диктора, на примере которого обучается. Частота ошибок распознавания таких систем обычно в 3-5 раз больше, чем частота ошибок дикторозависимых систем.
Раздельная или слитная речь. Если в речи каждое слово разделяется от другого участком тишины, то говорят, что эта речь – раздельная. Слитная речь – это естественно произнесенные предложения. Распознавание слитной речи намного труднее в связи с тем, что границы отдельных слов не четко определены и их произношение сильно искажено смазыванием произносимых звуков.
Назначение. Назначение системы определяет требуемый уровень абстракции, на котором будет происходить распознавание произнесенной речи. В командной системе (например, голосовой набор в сотовом телефоне) скорее всего, распознавание слова или фразы будет происходить как распознавание единого речевого элемента. А система диктовки текста потребует большей точности распознавания и, скорее всего, при интерпретации произнесенной фразы будет полагаться не только на то, что было произнесено в текущий момент, но и на то, как оно соотносится с тем, что было произнесено до этого. Также, в системе должен быть встроен набор грамматических правил, которым должен удовлетворять произносимый и распознаваемый текст. Чем строже эти правила, тем проще реализовать систему распознавания и тем ограниченней будет набор предложений, которые она сможет распознать.

Различия методов распознавания речи

При создании системы распознавания речи требуется выбрать, какой уровень абстракции адекватен поставленной задаче, какие параметры звуковой волны будут использоваться для распознавания и методы распознавания этих параметров. Рассмотрим основные различия в структуре и процессе работы различных систем распознавания речи.

По типу структурной единицы. При анализе речи, в качестве базовой единицы могут быть выбраны отдельные слова или части произнесенных слов, такие как фонемы, ди- или трифоны, аллофоны. В зависимости от того, какая структурная часть выбрана, изменяется структура, универсальность и сложность словаря распознаваемых элементов.
По выделению признаков. Сама последовательность отсчетов давления звуковой волны – чрезмерно избыточна для систем распознавания звуков и содержит много лишней информации, которая при распознавании не нужна, либо даже вредна. Таким образом, для представления речевого сигнала из него требуется выделить какие-либо параметры, адекватно представляющие этот сигнал для распознавания.
По механизму функционирования. В современных системах широко используются различные подходы к механизму функционирования распознающих систем. Вероятностно-сетевой подход состоит в том, что речевой сигнал разбивается на определенные части (кадры, либо по фонетическому признаку), после чего происходит вероятностная оценка того, к какому именно элементу распознаваемого словаря имеет отношение данная часть и (или) весь входной сигнал. Подход, основанный на решении обратной задачи синтеза звука, состоит в том, что по входному сигналу определяется характер движения артикуляторов речевого тракта и, по специальному словарю происходит определение произнесенных фонем.

UPD: Перенес в «Искуственный интеллект». Если будет интерес, дальше публиковать буду в нем.

Главная » Трудовое » Два сервиса распознавания речи и перевода в текст онлайн. Автоматизированные системы распознавания речи