3. Источник спектральных проблем в каскадных синтезаторах

Предыдущая  Содержание  Следующая V*D*V

В звуках голоса основным источником акустического сигнала возбуждения голосового тракта является квази-периодическая объёмная скорость воздуха, проходящего между голосовыми связками. Даже на пике воздушного потока в каждом цикле, когда складки находятся максимально далеко друг от друга, площадь голосовой щели значительно меньше, чем площадь поперечного сечения глотки, так что импеданс голосовой щели значительно выше, чем входной импеданс голосового тракта, за исключением, возможно, областей вблизи формантных частот. Таким образом, в первом приближении возбуждение вокального тракта можно рассматривать как практически не зависящее от конфигурации вокального тракта и определяемое только давлением под голосовой щелью и изменяющимися во времени свойствами голосовой щели. Предположение, что импеданс открытой голосовой щели достаточно высок, чтобы можно было им пренебречь, однако, верно только для первого приближения, и существуют наблюдаемые эффекты, вызванные непосредственно импедансом голосовой щели и сопряжением подсвязочной системы [15 , 16], особенно в нижней части частотного диапазона речи. Конечно, эффективная объёмная скорость чуть выше гортани представляет собой истинное возбуждение голосового тракта, но конечный импеданс щели заставляет форму волны этой объёмной скорости быть изменённой свойствами акустической системы выше и ниже гортани [16,17] . Холмсом [18] было указано, что значительное возбуждение голосового тракта также возможно воздухом, перемещаемым в результате движения поверхности голосовых связок, также как и воздухом действительно протекающим через голосовую щель. Конечным результатом всех вышеописанных эффектов является то, что детальный спектр голосового возбуждения может значительно отличаться от стилизованного импульса потока голосовых связок, такого, как описанные Розенбергом [19], Ротенбергом и др. [20] и Титце [21], даже при том, что последний может адекватно представлять распределение общей спектральной энергии некоторых реальных сигналов возбуждения. Есть случаи, когда эти небольшие изменения вызывают заметные изменения в интенсивности формант в результате спадов спектра голосовой щели и совпадения формантных частот.

 

Даже изменение спектра возбуждения голосовой щели не является постоянным во времени. Скорость и резкость закрытия складок в значительной степени зависят от вокальных усилий. Мощность возбуждения на высших звуковых частотах в основном происходит из очень коротких временных отрезков около моментов, когда голосовые связки, наконец, вступают в контакт в заключительной фазе каждого цикла вибрации, и это искривляет форму волны объёмной скорости в этих точках, которые управляют силой такого возбуждения. Эта кривизна пропорциональна как объёмной скорости как раз перед закрытием, так и скорости движения голосовых связок при закрывании. Повышение вокального усилия заставляет обе эти переменные расти и поэтому вызывает заметное изменение мощности на высоких частотах. С другой стороны, сокращение импульсов головой щели при повышенном вокальном усилии [22] приводит в результате лишь к незначительному изменению общего объёма воздуха, несмотря на изменение пиковой скорости потока. Мощность на основной частоте, таким образом, гораздо более постоянна при изменении вокальных усилий. Спектрограммы на Рис. 6 иллюстрируют этот эффект.

 

 

Рис. 6

Рис. 6. (a) Спектрограмма естественной речи при очень малом вокальном усилии.
(b) Спектрограмма того же говорящего, произносящего ту же фразу с обычным вокальным усилием.
(c) Спектрограмма того же говорящего, произносящего ту же фразу с очень большим вокальным усилием.
Между (a) и (c) интенсивность в основном отличается всего на 10 дБ, но интенсивности формант различаются примерно на 30 дБ.

 

Для многоцелевых синтезаторов речи не требуется получения эффектов широкого спектра вокальных усилий, но в человеческой речи, как правило, есть некоторое изменение усилия даже в пределах каждой группы дыхания, также как между говорящими. Использование постоянной формы импульса голосовой щели в каскадном синтезаторе не позволяет воспроизвести изменения вокальных усилий и разных сложных эффектов импульса голосовой щели, поскольку относительные интенсивности формант автоматически устанавливаются формантными частотами; альтернатива для того, чтобы сделать спектр импульса возбуждения изменяющимся реалистичным образом, требует дополнительного управления и заметную дополнительную сложность.

 

Предыдущая  Содержание  Следующая