4. Простые подходы к параллельному формантному синтезу

Как видно из приведённых выше рассуждений, в каскадном синтезаторе нельзя в общем случае полагать, что он даёт правильные относительные амплитуды формант, наблюдаемые в человеческой речи, даже для тех звуков, для которых он является наиболее подходящим теоретически. Из-за этих проблем стоит задуматься, в какой степени параллельные синтезаторы смогут их избежать. Учитывая возможные преимущества каскадного соединения для не-носовых сонорных, первый вопрос для рассмотрения, как много из недостатков параллельного соединения накладывается на эти звуки. Хорошо известно, что все-полюсную функцию передачи резонансной системы, такой, как каскадный синтезатор, можно разложить на простейшие дроби, в которых каждый член представляет отклик одного резонатора. В общем, числители членов являются линейными функциями комплексной переменной частоты, s, но в частном случае, когда действительные части координат полюса являются равными, эти линейные члены сводятся к константам. Таким образом, можно видеть, что каскадное соединение резонаторов, моделирующих несколько формант, эквивалентно полосам частот, которые могут быть точно представлены параллельным соединением, при условии, что отдельные уровни формантных схем устанавливаются равными коэффициентам простейшей дроби. Значения коэффициентов усиления легко вычисляются из знания формантных частот и будут иметь противоположный знак для последовательных формант, тем самым подразумевая, что выходы параллельных формантных генераторов должны быть смешаны с использованием разных полярностей. Если формантные полосы не равны, но изменяются в пределах, нормальных для речевых сигналов, отклик параллельного варианта по-прежнему почти идентичен отклику каскадного, как показано на Рис. 7. Так что параллельное соединение имеет практический недостаток, заключающийся в том, что сигналы управления усилением должны быть предусмотрены для каждой форманты, но если эта же формантная система может быть использована для согласных звуков, общая сложность синтезатора по-прежнему может быть меньше, чем будет найдена в каскадном синтезаторе с отдельными схемами для согласных.

Рис. 7. Иллюстрация, что неравные формантные полосы не мешают параллельному синтезатору очень близко приближаться к отклику каскадного соединения;
(a) каскадные форманты;
(b) параллельные форманты.

На первый взгляд может показаться, что оптимальным способом использования параллельного формантного синтезатора является использование его с коэффициентами усиления, соответствующими моделированию каскадного вида, когда требуется каскадный отклик, и варьировать уровни по мере необходимости, как это требуется для амплитуд других формант. Такой выбор, конечно, подразумевал бы, что коррекция высшего полюса явно обеспечена в случае аналоговой реализации или реализации с высокой частотой сэмплирования. Несмотря на свою теоретическую привлекательность, такой подход не реален для аналоговых синтезаторов. Точный параллельный эквивалент пяти-формантного каскадного синтезатора имеет асимптотический наклон его амплитудно-частотной характеристики -60 дБ на октаву. Поскольку смешивание отдельных формантных сигналов происходит с разной полярностью, этот наклон достижим взаимокомпенсацией отдельных наклонов -12 дБ на октаву у верхних хвостов отдельных формант. В полном синтезаторе коррекция высшего полюса служит тому, чтобы привести обратно уровень высоких частот к тому же порядку, что и для низких частот. Однако, когда изменяется уровень одной из низкочастотных формант, взаимокомпенсация верхних хвостов уже не происходит и асимптотический наклон имеет только -12 дБ на октаву; усиление общей цепи выше пятой форманты вследствие этого значительно возрастает и могут быть существенные изменения формы спектра между формантами. Рис. 8 иллюстрирует этот эффект для трёх типичных гласных при увеличении на 6 дБ амплитуды F2.

Рис. 8. Отклик аналогового параллельного синтезатора с коррецией высшего полюса, когда амплитуда одной форманты изменяется от её теоретического значения для каскадного соединения, проиллюстрированный на трёх типичных гласных. В каждом случае тонкая линия является откликом каскадного соединения и жирная линия показывает отклик параллельного, когда уровень F2 увеличивается на 6 дБ.
(a) Низкий гласный заднего ряда;
(b) Идеальный нейтральный гласный;
(c) Высокий переднеязычный гласный.

Из вышеизложенного видно, что этот метод реализации параллельного синтезатора позволяет получить точный аналог каскадного соединения, но требование точности управления амплитудой формант нереально высокое. Совсем небольшие ошибки введут нули в функцию передачи, которые могут заметно нарушить амплитуды спектральных компонентов между формантами, а большие изменения для достижения запланированных изменений амплитуд формант могут иметь катастрофические последствия для общей формы спектра.

Очевидный способ избежать этой чувствительности к амплитудным ошибкам заключается в удалении коррекции высшего полюса и перенастройке управления амплитудой формант для достижения того же спектрального отклика на формантных пиках. Отклик параллельного подключения теоретически отличается от него же в каскадной форме, но когда формантные амплитуды установлены должным образом, ошибки не очень большие. Результаты тех же вариаций амплитуд и гласных, как на Рис. 8, показаны на Рис. 9. Нежелательные эффекты на высокой частоте при изменении амплитуды гораздо меньше, чем это показано на Рис. 8, но нарушение формы спектра на других частотах очень заметно.

Сильная чувствительность на высокой частоте к изменению амплитуды, показанная на Рис. 8, возникает только в аналоговых или работающих с высокой частотой сэмплирования синтезаторах. Методу генерации формант на минимальной частоте сэмплирования присуща коррекция высшего полюса, что фактически означает, что для этого не требуется высокая степень взаимокомпенсации откликов на краях в параллельном варианте. Отклики параллельного дискретного синтезатора с теми же изменениями амплитуд формант, как на Рис. 8, показаны на Рис. 10, и видно, что они немного лучше на высоких частотах, чем у показанных на Рис. 9, хотя эффекты на других частотах дают тот же тип нарушения спектральной формы.

Рис. 9. Отклики, эквивалентные тем же на Рис. 8, если не используется коррекция высшего полюса.

Рис. 10. Отклики, эквивалентные тем же на Рис. 8, но дискретный синтезатор использует частоту дискретизации 10 кГц.

Рис. 11. Отклики отдельных формантных генераторов параллельного дискретного синтезатора, используемого для моделирования отклика каскадного для двух гласных. Толстая линия представляет собой совокупный ответ в каждом случае.

Рис. 11 показывает вклад каждого формантного генератора в параллельный эквивалент каскадного соединения для двух из гласных, использованных на Рис. 10. Видно, что спектральный уровень между формантными пиками в общем является результатом комбинации значительных вкладов от нескольких формант. Поскольку выходы генераторов формант должны быть подключены с разными знаками, чтобы сделать их сочетание корректным между формантными пиками, могут быть случаи, когда составной ответ на определённых частотах на самом деле меньше, чем индивидуальный вклад каждой из нескольких формант. Такая частичная взаимокомпенсация выходных сигналов от отдельных формантных генераторов является причиной сильно меньшего низкочастотного отклика, показанного на Рис. 9a и 10a, и очевидно, что большое изменение амплитуды любой форманты, как правило, будет иметь заметные последствия во многих областях спектра в дополнение к своей основному эффекту управления интенсивностью одной форманты. В области ниже частоты F1 спектральный уровень голосовой речи обычно высок, поэтому изменение низкочастотного уровня в результате изменения амплитуд высших формант, вероятно, даст субъективно нежелательные изменения мощности на низких частотах. Спектральные изменения между другими формантами, вероятно, будут менее важными, даже там, где произойдёт изменение уровня на несколько децибел, потому что такие ошибки будут скрыты для восприятия благодаря восходящему распространению маскировки [23] от интенсивных областей низкочастотных формант.

Конечно, главная причина для использования параллельного синтеза заключается в предоставлении возможности для гораздо больших изменений амплитуды формант, чем показано на Рис. 8 - 10, таких, как возникающие в результате изменения спектра источника и в ещё большей степени для различных согласных звуков. Например, для носовых согласных уровни мощности верхних формант на много децибел ниже их уровня для гласных, а для глухих фрикативных очень слабы нижние форманты. Для успешного моделирования спектра этих звуков важно, что большое изменение амплитуды формант не должны производить неречеподобных неуместных эффектов удалённых по частоте от тех формант, управление которыми производилось. Изменение амплитуды формант - не единственные спектральные особенности, наблюдаемые во время произнесения человеком этих согласных звуков; также могут возникнуть глубокие провалы спектра как результат нулей передаточной функции, но провалы сами по себе имеют небольшое значение для восприятия. Наиболее важный эффект нулей функции передачи голосового тракта состоит в изменении величины функции передачи на частотах полюсов. Для параллельного синтезатора с явным контролем интенсивности каждой форманты главными требованиями являются:

(i) управление каждой амплитудой должно иметь свой основной эффект в области частот, близких к его собственной форманте;

(ii) должна быть разумная речеподобная интерполяция спектральной кривой между формантными пиками, кроме случаев, когда уровень является достаточно низким, и ошибки субъективно замаскированы мощностью соседних формант.

Первое из этих требований подразумевает, что отклик от какого-либо одного формантного генератора на частотах между парами удалённых формант должен быть низким по сравнению с желаемым общим откликом на этих частотах. Видно, что это условие не выполняется системами, использованными при создании Рис. 8 - 10, и поэтому необходимо отказаться от этих простых параллельных схем и пересмотреть основные требования к параллельной формантной системе.