Полосное кодирование. Вокодеры

Повышение эффективности цифровых методов передачи возможно применением полосного кодирования, основанного на делении полосы частот речевого сигнала (t), ограниченного фильтром нижних частот (ФНЧ) первичного сигнала C(t) до пределов эффективно передаваемой полосы частот (ЭППЧ) соответствующего канала передачи, на ряд полос с помощью блока полосовых фильтров (ПФ₁.. ЛФ_n) тракта передачи, образуя, таким образом, субканалы (СК), число которых лежит в пределах 4...8 (рис. 4.10).

Рис. 4.10. Структурная схема кодека с разделением на полосы

В тракте передачи сигнал каждого из СК с помощью однополосной модуляции переносится в полосу частот O...F_МАКС и затем обрабатывается раздельно при помощи, например, кодера адаптивной дифференциальной импульсно-кодовой (Кодер АДИКМ). Для каждого СК дискретизация осуществляется соответствующей частотой дискретизации F_д Квантование и кодирование в каждом СК осуществляется с разной точностью с учетом свойств уха, при этом учитывается то положительное свойство, что сигнал каждого СК по своим статистическим свойствам более однороден, чем исходный речевой сигнал. Если применяется кодирование с мгновенным компандированием, то для всех СК может быть использован общий кодер. Однако, чтобы минимизировать скорость передачи, для каждого СК используется адаптивный кодер.

После того как сигнал в каждом из СК закодирован, индивидуальные цифровые потоки объединяются устройством формирования канального цифрового сигнала (ФКЦС) для передачи по общему каналу. На приеме осуществляются обратные преобразования: разделение канального цифрового сигнала в распределители канального цифрового сигнала (РКЦС), декодирование сигналов каждого СК в декодере АДИКМ и синтезирование исходного речевого сигнала в блоке синтеза речевого сигнала (CPQ.

Раздельное кодирование в каждом СК обладает следующими преимуществами.

1. За счет использования раздельной адаптации в каждом СК можно выбрать размеры шагов квантования в соответствии с уровнем энергии сигнала в каждом СК. В СК, содержащих сигналы с относительно высокими уровнями, возможно осуществление квантования с большим шагом. Таким образом, спектр шума квантования подгоняется под мгновенный спектр сигнала СК.

2. Скорость передачи в каждом из СК может быть оптимизирована согласно степени воздействия каждой из полос на восприятие. В частности, относительно большое число разрядов m_j на отсчет может быть использовано для низких частот спектра речи, где это важно для сохранения основного тона и структуры формант гласных и звонких согласных звуков. На высоких частотах можно использовать меньшее число разрядов на отсчет, поскольку шумоподобные глухие звуки не требуют сопоставимого качества воспроизведения.

Кодеры с разделением на полосы (СК) обеспечивают значительное уменьшение скорости передачи по сравнению с общими и относительно простыми алгоритмами кодирования в АДМ и АДИКМ.

Коэффициент сжатия цифрового сообщения при таком кодировании определяется из выражения

где N_c_._c - число служебных символов, например синхронизации, за 1с; F_д0 и m₀ - частота дискретизации и число разрядов кодовой комбинации при типовом способе цифровой передачи (F_д0 = 8 кГц и m₀ = 8).

Как показали экспериментальные исследования, кодирование с разделением на полосы обеспечивает хорошее качество передачи речевого сигнала при скорости 16...24 кбит/с при коэффициенте сжатия К_сж = 3...4.

Реализация современных кодеков полосного кодирования осуществляется только методами цифровой обработки сигналов на всех этапах формирования канального цифрового сигнала с широким использованием микропроцессорной техники.

Метод полосного кодирования нашел применение при передаче речевого сообщения в полосе частот до 7 кГц на скорости основного цифрового канала (ОЦК). При этом полоса частот такого сигнала делится на две полосы с образованием двух СК. В первом СК передача осуществляется в полосе частот 0,1...4,0 кГц с помощью АДИКМ со скоростью 48 кбит/с; во втором канале передается полоса частот 4...7 кГц с предварительным преобразованием в полосу частот 0.. .3 кГц и передачей методом АДИКМ, но со скоростью 16 кбит/с. Алгоритмы полосного кодирования предназначаются прежде всего для воспроизведения формы входного сигнала С (г) (рис. 4.10) с максимально возможной точностью. Они предполагают малую степень или полное отсутствие знаний о природе сигнала и применимы практически к любому сигналу, передаваемому по каналу тональной частоты, например к факсимильным сигналам. Для получение более низких скоростей передачи речевого сигнала (20 кбит/с и менее) необходимо учитывать статистические свойства речевого сигнала и применять весьма специфические методы его кодирования. Устройства, реализующие методы кодирования на основе использования статистических свойств речевого сигнала, называются вокодерами, от соединения слов voice coders, что означает кодеры речевого сигнала (голоса).

Основным назначением вокодеров является кодирование только важных для восприятия речи параметров сигнала с уменьшенным числом символов. При построении вокодеров используются следующие специфические особенности спектра речевого сигнала:

1. Спектр гласных и звонких согласных звуков дискретный, все компоненты спектра являются кратными гармониками частоты основного тона F_OT, индивидуального для каждого говорящего. Такие звуки можно описать выражением

где A_k - амплитуда к-к гармоники частоты основного тона F_o_т. Параметр А_к изменяется от звука к звуку, параметр F_o_т - от говорящего к говорящему.

2. Спектр глухих звуков (глухих согласных) является практически сплошным.

3. Для всех звуков характерно неравномерное распределение энергии спектральных составляющих с концентрацией их в отдельных областях, называемых формантами. Число формант для каждого звука зависит от особенностей говорящего и лежит в пределах 3...5 (иногда доходит до 7). Основными параметрами формантной области являются ее центральная частота F_ф_i, и максимальная амплитуда A_i которые изменяются от звука к звуку и от говорящего к говорящему.

4. Усредненные центральные частоты первых трех формант лежат в пределах 200...700 Гц (с условным максимумом на частоте F_ф1 = 500 Гц), 1000...2000 Гц (с условным максимумом на F_ф2= 1500 Гц), 2000...4000 Гц (с условным максимумом на F_ф3= 3500 Гц) для 1-й, 2-й и 3-й формант соответственно.

5. Частота следования отдельных звуков или слогов для нормального речевого процесса не превышает 10 Гц, при этом длительность самых коротких согласных звуков - не менее 30 мс, а самых длинных гласных -не более 350 мс.

6. Фазовые соотношения между отдельными частотными составляющими спектра речи менее существенны для ее восприятия. По существу, ухо воспринимает уровень энергии на различных частотах в спектре речи, но не фазовые соотношения между отдельными частотными составляющими.

В зависимости от того, какие из перечисленных особенностей выбраны при анализе речевого сигнала на передаче и его синтезе на приеме различают: полосные вокодеры (ПВК), формантные вокодеры (ФВК), гармонические вокодеры (ГВК), вокодеры с линейным предсказанием.

Полосный вокодер ПВК был впервые разработан в 1928 г. Г. Дадли, в котором речевой сигнал путем компрессирования спектра преобразовывался в аналоговый сигнал с общей полосой порядка 300 Гц. Затем были разработаны цифровые полосные вокодеры (ЦПВК), основанные на этих идеях, на скорости передачи от 1 до 2 кбит/с.

Структурная схема тракта передачи цифрового полосного вокодера приведена на рис. 4.11.

Рис. 4.11. Структурная схема тракта передачи цифрового полосного

вокодера

Полоса частот первичного речевого сигнала С(t) фильтром нижних частот (ФНЧ) ограничивается до эффективно-передаваемой полосы частоты канала тональной частоты. Получаемый на выходе ФНЧ сигнал (t) набором полосовых фильтром ПФ₁...ПФ_n делится на ряд субканалов (СК). В состав каждого СК входит амплитудный детектор АД, на выходе которого получается огибающая сигнала соответствующего СК, выделяемая ФНЧ, с полосой пропускания от 0 до 25...35 Гц. В результате на выходах этих фильтров имеем низкочастотные сигналы S_i(t), i = 1, 2,…n, каждый из которых несет информацию о средней интенсивности спектра речевого сигнала в пределах полосы частот СК. Далее сигнал S_i(t) соответствующего СК в блоке аналого-цифрового преобразования (АЦП) подвергается всем процедурам формирования соответствующего цифрового сигнала на основе обычной ИКМ или ее модификаций: ДИКМ или АДИКМ.

С помощью блока ВОТ (выделитель основного тона) производится определение частоты основного тона F_от, а с помощью блока ОТШ ( определитель тон-шум) определяется тип звука - звонкий (тональный) или глухой (шумный). Для передачи информации от ВОТ и ОТШ требуется полоса частот порядка 100 Гц. Совокупность устройств, образующих блок субканалов совместно с ВОТ и ОТШ, называется анализатором.

Затем цифровые сигналы отдельных СК и ВОТи ОТШ объединяются в ФГВКЦС (формирователь группового вокодерного цифрового сигнала) в групповой вокодерный цифровой сигнал (ГВКЦС). Коэффициент сжатия по тактовой частоте определяется по формуле:

где F_твк - тактовая частота ГЦС вокодера; F_i, и m_i - частота дискретизации и разрядность в i-m СК ( обычно F_i = 50.. .70 Гц и m_i = 3.. .5);F_д0 = 8 кГц и m₀ - частота дискретизации и разрядность кода типового основного цифрового канала ЦСП ИКМ-ВРК. Для передачи информации от ВОТ и ОТШ и сигнала цикловой синхронизации требуется до 600 бит. Для числа СК п = 6... 12 скорость передачи полосового вокодера составляет 1200...2400 бит/с, что соответствует коэффициенту сжатия К_сж=26.. .53.

Обобщенная структурная схема тракта приема полосного вокодера приведена на рис. 4.12, где происходят операции декодирования цифровых сигналов СК, получение соответствующих им огибающих и синтеза речевого сигнала по этим огибающим и сигналов основного тона и тон-шум.

На вход тракта приема поступает вокодерный групповой цифровой сигнал (ВКГЦС), который в блоке разделения вокодерного группового цифрового сигнала делится на сигналы соответствующих субканалов, при этом информация от ВОТ тракта передачи поступает на импульсный генератор основного тона - ГОТ и управляет его частотой, информация от ОТШ тракта передачи поступает на коммутатор КОМ, который подключает к гребенке полосовых фильтров - ПФ субканалов или ГОТ или генератор шума - ГШ. Генератор шума формирует короткие импульсы случайной длительности и частоты, что эквивалентно шуму с равномерной спектральной плотностью.

Генератор основного тона представляет собой генератор гармоник, формирующий периодическую последовательность импульсов, следующих с частотой основного тона F_от. Совокупность элементов СК: цифроаналоговый преобразователь - ЦАП, амплитудный модулятор субканала -АМСК, полосовые фильтры - ПФ субканалов, ГОТ, ГШ и КОМ образуют синтезатор речевого сигнала - СРС.

Рис. 4.12. Структурная схема тракта приема полосного вокодера

Огибающая сигнала S(t) соответствующего СК с выхода ЦАП поступает на АМСК, где происходит амплитудная модуляция либо сигналов ГОТ, либо ГШ. В результате чего формируется так называемый окрашенный спектр частот, характерных для того или иного звука. В зависимости от значения сигнала S(t) соответствующего СК меняется интенсивность спектра в его полосе. Полосовые фильтры ПФ служат в основном для исключения побочных продуктов модуляции. Выходом вокодерного канала является усилитель УС, обеспечивающий номинальный уровень приема.

Наиболее трудным в реализации полосных вокодеров является точное определение параметров основного тона и сигнала тон-шум для гласных или звонких согласных звуков. Кроме того, определенные звуки затруднительно четко определить как чисто звонкие или чисто глухие (или шумовые). Поэтому усовершенствование полосовых вокодеров связано с получением более точных характеристик генераторов возбуждения (ГОТ и ГШ). Без точной информации об этих сигналах качество речи на выходе вокодера является низким и зависит как от говорящего, так и от конкретных произнесенных звуков. Некоторые из более совершенных вокодеров при скорости передачи 2400 бит/с создают разборчивую речь, хотя с недостаточной узнаваемостью и несколько ощутимым синтетическим звучанием.

Как отмечалось выше, мгновенный энергетический спектр речи редко занимает всю полосу частот КТЧ. Энергия речи имеет тенденцию концентрироваться в трех или четырех областях максимума - формантах.

Формантный вокодер (ФВК) определяет положение и амплитуду этих спектральных максимумов и передает эту информацию вместе с огибающей всего спектра. Вследствие этого ФВК формирует цифровой сигнал с пониженной скоростью передачи за счет кодирования только наиболее значительных мгновенных составляющих в спектре речи. ФВК отличается от ПВК построением анализатора и синтезатора, при этом блоки выделения команд ОТ и ТШ практически аналогичны, но для своей реализации требует меньшего числа полосовых фильтров (обычно не более трех). Самым важным требованием для получения приемлемого качества синтезированной на приеме речи ФВК является точное прослеживание динамики изменения формант. Если это выполнить, то ФВК может дать весьма разборчивую речь при скорости передачи не более 1000 бит/с.

Гармонический вокодер. Идея гармонического вокодера основана на методе гармонического кодирования речевого сигнала, разработанного советским ученым А.А. Пироговым. Сущность метода сводится к передаче огибающей текущего энергетического спектра речевого сигнала, усредненного за некоторый (весьма небольшой) промежуток времени, в виде коэффициентов разложения огибающей в ряд Фурье. В зависимости от требуемой точности воспроизведения огибающей число членов ряда будет различным. Соответственно этому изменяется и число передаваемых параметров. Поскольку каждый член ряда в общем случае определяется двумя параметрами, то число последних должно быть вдвое больше числа членов ряда. Как известно, для определения коэффициентов разложения достаточно иметь ординаты огибающей спектра речевого сигнала. Число этих ординат берется равным 2n-1, где n - число членов ряда.

Следовательно, при гармоническом кодировании необходимо измерять уровень спектра речевого сигнала на (2n - 1) частотах, выделяемых соответствующими полосовыми фильтрами - ПФ. Величины этих уровней и будут ординатами огибающей. Оптимальная ширина полосы пропускания ПФ при представлении огибающей в натуральном масштабе частот примерно равна

где 𝜟F - полоса частот речевого сигнала (как правило, равная эффективно-передаваемой полос частот КТЧ); q - число формант.

Возможен и бесфильтровый метод спектрального анализа путем применения линий задержки, который свободен от недостатков фильтровых методов, но имеет свои трудности: сложность реализации временных задержек на низких частотах.

Коэффициенты разложения огибающей, определенные по ее ординатам, изменяются во времени примерно с той же скоростью, что и спектральные уровни в полосном вокодере, т. е. с частотой не выше 25.. .50 Гц.

Для сохранения качества звучания и натуральности речи необходимо передавать не менее 3...4 формант. Следовательно, число ординат спектральной огибающей должно быть не менее 6...8. Это соответствует трем-пяти членам разложения ряда Фурье, что требует полосы частот гармонического вокодера, равной 75.. .250 Гц.

Структурная схема гармонического цифрового вокодера аналогична схеме полосного вокодера, однако на выходе каждого полосового фильтра появляются коэффициенты разложения Фурье. Результирующий сигнал на выходе этих фильтров представляют в виде ряда гармонических функций, которые затем подвергаются преобразованию по алгоритмам ИКМ, АДИКМ и др.

Рис. 4.13. Модель генерации речевого сигнала в ВКЛП

Вокодеры с линейным предсказанием. Анализатор вокодера с линейным предсказанием (ВКЛП) формирует существенные характеристики речи непосредственно из временной функции сигнала C(t), а не из частотного спектра, как в полосовом, формантном или гармоническом вокодерах. По существу, ВКЛП анализирует речевой сигнал для получения меняющейся во времени модели возбуждения (ГОТ и ГШ) синтезатора тракта приема и функции передачи. Синтезатор тракта приема формирует речевой сигнал путем пропускания полученных сигналов ГОТ и ГШ через устройство, соответствующее математической модели речеобразующего тракта.

Синтезатор приспосабливается к изменениям параметров модели и элементов возбуждения путем периодического уточнения этих параметров. Однако предполагается, что в течение любого одного интервала уточнения речеобразующий тракт представляет собой линейное устройство с постоянными во времени параметрами. Структурная схема типовой модели для генерации речи представлена на рис. 4.13.

Выражение, описывающее работу модели речеобразующего тракта, имеет вид

где у(n) - п-й отсчет на выходе; А_k- k-й коэффициент предсказания; К -коэффициент усиления регулируемого усилителя УС; х(n) - входной сигнал в момент дискретизации n;p - порядок модели, под которым понимается число последних отсчетов, определяющих алгоритм линейного предсказания.

Отметим, что выходной речевой сигнал в формуле для у(n) представлен в виде суммы входного сигнала в настоящий момент и линейной комбинации р предыдущих выходных сигналов речеобразующего тракта. Эта модель является адаптивной в том смысле, что в кодере периодически определяется новое семейство коэффициентов предсказания, соответствующих последовательным фрагментам речи. В этом кодирование в ВЛКП аналогично адаптивной ДИКМ или кодированию с адаптивным предсказанием. Отличие состоит в определении коэффициентов предсказания и в том, что в ВКЛП не измеряются и не кодируются разностные сигналы или сигналы ошибки. Вместо этого при определении коэффициентов предсказания минимизируются средние квадратические значения ошибок. Возможность избежать кодирования ошибок предсказания вытекает из того факта, что в ВЛКП используются параметры предсказания, полученные из отрезков реального речевого сигнала, к которым эти параметры и применяются (прямая оценка).

В вокодере с линейным предсказанием в кодере (анализаторе) определяется и передается в сторону декодера (синтезатора) следующая информация о:

1) характере возбуждения (гласные или звонкие согласные звуки в сопоставлении с глухими звуками);

2) периоде основного тона (для воспроизводства гласных или звонких согласных);

3) коэффициенте усиления К;

4) коэффициенте предсказания (параметрах модели речеобразующего тракта).

Частота основного тона определяется измерением периодичности, если она существует. Помимо того, что кодер (анализатор) с линейным предсказанием измеряет основной тон способами, аналогичными используемыми другими типами вокодеров, он обладает еще и специфическими свойствами, которые содействуют определению параметров основного тона.

Определение коэффициентов предсказания осуществляется следующим образом: в качестве желаемого выходного сигнала синтезатора используются отсчеты реального сигнала, затем образуется система из р линейных уравнений с р неизвестными коэффициентами. В результате эти коэффициенты определяются путем интегрирования матрицы размером р х р. Поскольку порядок р может варьироваться в зависимости от желаемого качества синтезированной речи, прямая инверсия матрицы требует огромного объема вычислений. Однако, если принять для модели специальные ограничения, матрицы приобретают особые свойства, которые существенно упрощают решения уравнений. При использовании микропроцессорной техники решение даже сложных матриц не вызывает особых затруднений.

Хотя ВКЛП обрабатывают сигнал во временной области, они обеспечивают хорошие оценки пиков в спектре речи. Кроме того, ВКЛП способен эффективно отслеживать медленные изменения огибающей спектра. Итоговый результат состоит в том, что ВКЛП на скорости передачи 1,2...2,4 кбит/с дает более естественное звучание речи, чем полосные вокодеры и их модификации.

Полувокодеры. Рассмотренные типы цифровых вокодеров, обеспечивая высокую разборчивость даже при десятикратном сжатии спектра речевого сигнала, не удовлетворяют требованиям по натуральности звучания и узнаваемости голосов. Получаемая синтезированная речь отличается машинным акцентом. Это происходит в основном из-за погрешности измерения основного тона, различения гласных и звонких согласных звуков. Эти недостатки усугубляются изумительной способностью человеческого уха обнаруживать малейшие неточности восстановления основного тона.

Трудности и неточности анализа речевого сигнала и его синтеза по параметрам преобразования можно обойти, применив полувокодер. Структурная схема полувокодера показана на рис. 4.14. В этом устройстве информация об основном тоне передается непреобразованной полосой низкочастотной части спектра речевого сигнала, образуя нулевой субканал (фильтр нижних частот - ФНЧ), сигнал которого далее подвергается соответствующему цифровому преобразованию в блоке аналого-цифрового преобразования - АЦП.

Сигналы субканалов анализатора и нулевого субканала объединяются в устройстве формирования группового цифрового сигнала (ФГЦС) полувокодера. В разделителе группового цифрового сигнала (РГЦС) тракта приема сигнал нулевого субканала, испытав обратные преобразования в цифро-аналоговом преобразователе - ЦАП, подается на нелинейное устройство формирования широкополосного сигнала (ФШС) с равномерным спектром. Этот сигнал с выровненным (размноженным) спектром далее используется как источник возбуждения синтезатора полосного (или иного полувокодера), формирующего спектр речевого сигнала выше нулевого субканала. Сигнал с выровненным спектром отражает дискретный характер спектра квазипериодических гласных и звонких согласных звуков и сплошной спектр глухих и шипящих звуков. Будучи извлеченным из части спектра исходной речи, он сохраняет как информацию тон-шум, так и информацию об основном тоне.

Рис. 4.14. Структурная схема полувокодера

Тонкая временная структура голосового возбуждения (она считается важной для натуральности) при сглаживании не теряется. Ценой некоторой потери полосы частот качество синтезированной речи может быть приближенно к качеству речи телефонного канала с эффективно-передаваемой полосой частот 0,3...3,4 кГц. Таким образом, получаем относительно высокое качество синтезированной речи и некоторую часть в экономии пропускной способности как канала тональной частоты, так и основного цифрового канала. В одном из первых вариантов полувокодера непреобразованная полоса частот (нулевой субканал) взята равной 250.. .940 Гц. Диапазон частот от 940 до 3650 Гц разделен на 17 субканалов. Из них первые 14 имеют полосы пропускания по 150 Гц, а самые верхние - несколько шире. Общая полоса частот полувокодера получилась равной 1000... 1200 Гц, что соответствует примерно трехкратной компрессии.

Экспериментальные исследования последних лет показывают, что, выбирая полосу частот нулевого субканала равной 800... 1000 Гц и применяя полосный вокодер с числом субканалов 6... 10 для полосы частот 1000...3400 Гц, можно обеспечить такое качество речи, что 82% слушателей не замечают различий в сравнении с каналом тональной частоты.

При использовании эффективных кодеков можно получить результирующую скорость передачи сигнала цифрового полувокодера, равную 9,5 кбит/с. Успехи в области микросхемотехники и алгоритмов быстрой цифровой обработки сигналов позволяют создавать миниатюрные кодеки цифровых вокодеров на скорости передачи 16, 9,6, 8 и 4,8 кбит/с, что позволяет весьма эффективно использовать пропускную способность основного цифрового канала.

Эффективность цифровых систем передачи можно значительно повысить, если найти оптимальные способы ввода вокодерных цифровых каналов в каналы и тракты цифровых систем передачи. Эта проблема также важна и для организации различного вида каналов передачи данных по типовым каналам и трактам цифровых систем передачи.

⇐ Предыдущая 35 36 37 38 394041 42 43 44 Следующая ⇒