5. Разработка универсальной параллельной формантной системы

Предыдущая  Содержание  Следующая V*D*V

В этом Разделе будет показано, что действительно хороший параллельный формантный синтезатор значительно отличается от простых систем, описанных в Разделе 4.

 

В модели речеобразования источник-фильтр с параллельными резонаторами удобно сделать сигналы управления амплитудами только теми параметрами, которые определяют мощность в спектре вокруг формантных пиков, потому что эти элементы управления могут быть связаны с непосредственно измеряемыми свойствами естественной речи. Такой выбор означает, что спектральная интенсивность сигнала возбуждения на формантных частотах должна быть независимой от вокальных усилий и от громкости речи. Эффекты изменения интенсивности и изменение спектра реального сигнала возбуждения, точка приложения возбуждения и структура голосового тракта все могут быть представлены в модели системы формантных фильтров.

 

Эти предположения всё ещё оставляют многие аспекты системы не определёнными. При системе синтеза, изображенной символически на Рис. 12, источник возбуждения представлен в виде генератора плоского спектра с фильтром, формирующим огибающую возбуждения; результирующий сигнал подаётся в параллельную формантную систему и в конце на фильтр. Предполагая, что процессы фильтрации можно рассматривать как стационарные и линейные (что является разумным приближением за исключением случаев, когда спектр меняется быстро), есть широкий выбор, как разделить комбинированное определение спектра между тремя составными частями. Выбор будет зависеть главным образом от простоты разработки системы формантных фильтров, а также будет находиться под влиянием таких факторов, как шум аналоговой цепи или цифровые шумы квантования, удобства описания и избегания неблагоприятных переходных эффектов, которые могут возникнуть, когда потребуются быстрые изменения спектра. В системе формантных фильтров легче удовлетворить требованиям отклика отдельных формантных генераторов на краях, если максимальный отклик, необходимый для каждой из формант, примерно одинаков. Величина отклика от голосовой щели до губ неразветвлённого голосового тракта имеет примерно  одинаковое максимальное значение для каждой из формант и поэтому представляется целесообразным, как и в системах, описанных в Разделе 4, указать, что для гласных система формантных фильтров должна быть способна вплотную приблизиться к отклику неразветвлённой акустической трубы (или её каскадного формантного эквивалента). Однако, в отличие от систем Раздела 4, он также должен быть пригодным для получения соответствующих спектральных форм для других звуков речи с сильно различающимися амплитудами формант.

 

Рис. 12

Рис. 12. Блок-схема, иллюстрирующая получение огибающей спектра возбуждения, параллельную формантную систему и формирование выходного спектра.

 

Причина, почему схемы, используемые для Рис. 8, 9 и 10, не были приемлемыми в том, что общий отклик был во многих местах зависящим от сочетаний значительных краевых откликов от нескольких формант. Можно преодолеть эти краевые эффекты, связывая каждый генератор основных формант с дополнительной цепью формирования спектра перед смешиванием сигналов отдельных формант. В идеале требования к таким фильтрам формирования спектра таковы:

 

(i) они должны иметь сильный по амплитуде отклик в диапазоне частот, разрешённом для соответствующей форманты (однако, не обязательно, что отклик должен быть постоянным в этом частотном диапазоне, потому что при изменении формантной частоты можно компенсировать колебания изменением сигналов управления амплитудами);

(ii) они не должны вызывать фазовых искажений, с тем, чтобы компоненты значительной амплитудой от соседних формантных генераторов объединялись в правильном фазовом соотношении.

(iii) они должны обеспечить существенное ослабление любых компонентов, которые обладают значительной амплитудой вне диапазона частот формантного генератора, который производит их;

(iv) уровни усиления/частотные характеристики должны меняться постепенно на частотах, для которых выходы имеют значительную амплитуду, чтобы избежать нарушений в объединённом отклике полного синтезатора.

Использование такого набора фильтров, хотя он предотвращает неприятные отдалённые краевые эффекты, также приносит свои собственные проблемы. В естественной речи, когда два форманты близки друг к другу, их амплитуды значительно возрастают; скорость падения амплитудного отклика на краях такой пары формант является такой же, как у двухрезонаторного полосового фильтра, и гораздо больше, чем у одного резонатора. В параллельной реализации этот эффект может быть достигнут только путём взаимокомпенсации формантных откликов и поэтому отклики любых дополнительных фильтров, включённых в формантные генераторы, должны быть достаточно похожи в тех местах, где возможно смешивание формант, чтобы эта взаимокомпенсация всё ещё происходила. Поэтому необходимо пятое условие:

(v) фильтры для соседних формант должны иметь очень похожие отклики в частотных областях около возможного смешивания формант.

 

Это дополнительное условие не вызывает каких-либо проблем при смешивании высших формант, но в случае смешивания F1 - F2 встречается с фундаментальной трудностью. В каскадном синтезаторе на низких частотах передаточная функция имеет единичную величину и в её точном параллельном эквиваленте единичная величина определяется комбинацией нижних хвостов отликов всех отдельных резонаторов, как показано на Рис. 11. Отклики F2 и F4 имеют противоположную полярность к таковым на F1, F3 и F5. В случае звука подобного [a], где F1 и F2 очень интенсивны и близки по частоте, правильная величина на низкой частоте может быть получена только при наличии высокой степени взаимокомпенсации между нижними хвостами F1 и F2. Вышеприведённое условие (iii) требует, что для глухих фрикативных не должно быть значительного ослабления нижнего хвоста F2, и таким образом взаимокомпенсация откликов на частотах, ниже F1 - F2, требуемая в некоторых гласных, происходить не будет.

 

Возможным решением этой проблемы является предоставление специальной схемы для поддержания необходимого уровня низкочастотного сигнала, зависящего от амплитуд и частот F1 - F5, и это решение объясняется в Разделе 6. Предполагая, что таким образом можно избежать трудностей с низкочастотным откликом, требованиям к фильтрам спектральной огибающей в дискретных синтезаторах не очень трудно удовлетворить КИХ фильтрами довольно небольшого порядка. Однако, для практических синтезаторов речи требование (ii) может быть несколько ослаблено. Так как человеческая слуховая система не чувствительна к фазе отклика, если искажение групповой задержки мало, достаточно определить (ii), как:

 

(ii) фазы откликов должны быть такими, чтобы компоненты значительной амплитудой от различных формантных генераторов объединялись в правильном соотношении фаз.

 

Этот ослабленный набор условий может, фактически, быть выполнен достаточно хорошо набором очень простых фильтров. Для всех формант, кроме F1, основной эффект требования (iii) состоит в том, что величина отклика должна быть очень небольшой ниже частоты F1, такой, чтобы мог быть адекватно синтезирован спектр глухого согласного. Это условие может быть выполнено с помощью фильтра с одним нулём в своей функции передачи в начале s-плоскости, то есть с помощью простой дифференцирующей цепочки. Такой фильтр также достаточно хорошо удовлетворяет всем другим условиям для этих формант, если может быть выбрана подходящая характеристика фильтра для F1, чтобы заставить его выход надлежащим образом объединиться с сигналом F2. Когда формантный генератор используется с дифференцирующей цепочкой, очень легко, как для дискретной, так и аналоговой конструкции, добиться того, чтобы максимум амплитуды огибающей импульсной характеристики по большей части не зависел от частоты форманты и ширины диапазона (см. Рис. 13). Для многих приложений эта величина является наиболее удобным определением амплитуды формант для F2 и выше, так как она легко оценивается из анализа естественной речи и может быть непосредственно использована в синтезаторе.

 

Рис. 13

Рис. 13. Продифференцированные импульсные характеристики формантных генераторов для разных формантных частот и полос, все определены как имеющие одинаковую амплитуду форманты.

 

Поскольку коррекции высшего полюса нет, отклик только что описанного параллельного соединения будет быстро падать выше самой верхней явной форманты, чем должен в идеальной резонансной модели, если не используется дискретная форма с минимальной частотой дискретизации. Этот эффект может быть преодолён путём добавления одного или нескольких высокочастотных резонансов в цепь формирования спектра самых высокочастотных параллельных формант и эта договоренность была использована в откликах, показанных на Рис. 16 и 17. Однако, как описано в Разделе 2, поскольку предположение о плоской волны выше 3 кГц является недопустимым,  в человеческом голосовом тракте существуют дополнительные резонансы и антирезонансы. Поэтому, вероятно, более реалистично просто использовать один или два достаточно широкополосных фильтра, содержащий несколько резонаторов для представления формы спектра выше 3 кГц, и отказаться от любых попыток моделировать каскадный отклик в этой области частот [13].

 

Для фильтра, формирующего спектральную кривую для F1, величина низкочастотного отклика должна быть приблизительно не зависящей от частоты, так чтобы генератор F1 мог сделать правильный тип вклада в общий отклик на низкой частоте. Выше частоты F1 необходимо, чтобы фазовый сдвиг фильтра приближался к 90° для достижения правильного фазового соотношения с выходом дифференцирующей цепочки, используемой с F2. Единственный вещественный нуль, на позиции около -600 или -700 Гц, даёт разумное приближение к этим условиям, хотя сдвига фаз между частотой F1 и низкими частотами F2 не совсем достаточно для достижения хорошего сложения с нижним хвостом F2 в этом регионе. Подъём 6 дБ на октаву, который этот нуль вызывает на высших звуковых частотах, не нарушает условия (iii), так как резонатор F1 сам по себе даёт гораздо большее затухание верхнего хвоста, чем необходимо, чтобы избежать проблем при синтезе высокочастотных формант. Начало подъёма 6 дБ на октаву в области ниже F2 на самом деле помогает, так как последующий дополнительный выход от генератора F1 частично компенсирует ослабление нижнего хвоста F2, вызванное нулём фильтра F2. В этом случае физический смысл сигнала, управляющего амплитудой F1, не такой же, как для высших формант. Если то же самое определение амплитуды форманты необходимо для F1, коррекция управления амплитудой должна быть рассчитана исходя из знания формантной частоты. Однако, значение амплитуды, проиллюстрированное Рис. 13, не очень полезно для низких формантных частот из-за трудностей оценки огибающей волны естественной форманты, когда её амплитуда заметно затухает в течение одной половины цикла резонансной частоты, и в таком синтезаторе удобнее задать амплитуду сигнала F1 указав усиление генератора F1 на нулевой частоте.

 

Существует небольшое преимущество, если к фильтру F1 добавлен дополнительный всепропускающий фазовращатель для получения небольшого дополнительного сдвига фазы в области между F1 и F2. Выбор -640 Гц для реального нуля F1, и пары реального нуля и полюса на +/- 270 Гц даёт фазовую характеристику, показанную на Рис. 14, и лишь незначительно отличается от 90° в важном диапазоне частот.

 

Рис. 14

Рис. 14. Фазовый сдвиг предложенного фильтра спектральной огибающей F1. Тонкая линия является откликом только с одним вещественным нулём, а жирная линия показывает эффект от добавления дополнительной коррекции фазы.

Предыдущая  Содержание  Следующая