6. Низкочастотный отклик параллельных синтезаторов

Предыдущая  Содержание  Следующая V*D*V

В голосовом тракте человека, если в нём не полностью или почти полностью не препятствуют для взрывных или фрикативных согласных, объём воздуха, входящего через голосовую щель, равен совокупному объёму воздуха, выходящего через рот и нос. Отсюда следует, что ниже частоты самого низкого резонанса передаточная функция голосового тракта для не шумящих звуков близка к единичной величине, независимо от фактически произносимого звука. Импеданс голосовой щели во время звучания высок и за исключением шумящих поток воздуха в любой момент незначительно изменяется фактической конфигурацией голосового тракта. Амплитуды самых низкочастотных составляющих речевого сигнала (основной компонент, а для говорящих взрослых мужчин также и вторая гармоника) имеют поэтому почти постоянную амплитуду во время разговора, или изменяются только очень медленно, с изменениями в голосовом усилии или тоне. Эти компоненты обычно содержат наибольшую мощность в речевом сигнале, а поскольку они так мало зависят от голосового тракта, они почти не способствуют разборчивости речи и, фактически, отфильтровываются в телефонных сетях общего пользования. Однако, важно, чтобы они присутствовали в высококачественной речи, и мой опыт работы с синтезом речи показал, что если самые низкочастотные компоненты присутствуют, люди-слушатели более чувствительны к неестественным изменениям их уровня, чем к аналогичного размера (в дБ) уровням ошибок на формантных частотах.

 

С помощью каскадного синтезатора единичная величина низкочастотной характеристики достигается автоматически и управление уровнем требуется только для представления низкочастотной интенсивности голосового источника. Если импульсы голосового источника имеют соответствующую форму и тракт не имеет носового ответвления, влияющего на амплитуды самых низких двух или трёх формант, то  звук действительно "сразу выходят правильным" для гласных.

 

Как уже было описано в Разделе 5, в параллельной конфигурации необходимы дополнительные схемы формирования спектра с  помощью формантных генераторов, если для некоторых согласных звуков в области F1 должен быть достигнут достаточно низкий уровень. Характеристики передачи высоких частот этих схем для F2 и более высоких формант делают усиление синтезатора на низкой частоте зависящим только от установленной амплитуды F1, и поэтому значительно различаются, так как управление амплитудой регулируется для получения разных интенсивностей F1, необходимых для различных гласных и звонких согласных. Холмс [17] описал параллельный синтезатор, в котором был предусмотрен дополнительный резонатор ниже частоты F1 для улучшения моделирования низкочастотных областей голосовой речи, и, в частности, для дополнительного спектрального пика, часто наблюдаемого в диапазоне 250-300 Гц для носовых гласных. Из-за этого последнего использования этот дополнительный резонанс для удобства называют носовой формантой, или FN. Если реальная координата s-плоскости этого резонанса достаточна велика (скажем, около -150 Гц), его низкая резонансная частота приводит к характеристике усиления, которая имеет лишь небольшой резонансный пик, и является более похожей на  характеристику фильтра низких частот. Этот выход добавляется параллельно с нижним хвостом отклика F1 и изменяя его интенсивность можно управлять амплитудами самых низких спектральных компонентов голосовой речи, независимо от настройки амплитуды F1. В синтезе, описанном Холмсом [17], для оптимизации синтезированного произношения были использованы все доступные сигналы управления и в последствии управление амплитудой FN было использовано для такой коррекции низких частот, а также для его основной цели - улучшения носовых гласных. Успех синтеза, о котором сообщалось в той работе, является доказательством того, что использование независимого контроля низкочастотным звуковым спектром может преодолеть проблемы поддержания правильного уровня в этом регионе.

 

Основной недостаток синтезатора Холмса 1973 года в том, что интенсивность низких частот, которая в человеческой речи почти полностью зависит от интенсивности голосового источника и меняется только очень незначительно с артикуляционными изменениями, была получена в результате комбинированных характеристик резонаторов F1 и FN, с помощью независимого управления их амплитудой. Очевидно, что использованию синтезатора способствовало бы, если бы для определения уровня низкой частоты была использована непосредственно одна из регулировок амплитудой, как это делает управление амплитудой голоса в каскадном синтезаторе.

 

Холмс [24] описал изменённую конфигурацию синтезатора, которая обеспечивает такую возможность. Новый сигнал управления амплитудой, известный как ALF, используется, как показано на Рис. 15, таким образом, что он контролирует сумму сигналов возбуждения F1 и FN. Если собственные низкочастотные уровни обоих резонаторов равны, их совокупный выход в этой области спектра будет определяться только ALF. Степень, в которой ALF правильно определяет комбинированные сигналы F1 и FN на высоких частотах в пределах полосы пропускания FN, зависит в основном от формы амплитудной характеристики FN и сходства фазовых характеристик FN и F1. Со специальной схемой формирования F1, описанной в Разделе 5, существует фазовый сдвиг сигнала F1 на 180° на нулевой частоте, что требует изменения полярности схемы FN, чтобы произвести соответствующее подключение сигнала. Если это изменение полярности обеспечено и координатой полюса FN является -150 +/- j200 Гц, разность фаз между F1 и FN достаточно мала для амплитуды общего сигнала, который будет почти полностью определяться ALF до частоты около 300 Гц, за исключением случаев, когда F1 имеет более низкую частоту.

 

 

Рис. 15

Рис. 15. Блок-схема для иллюстрации использования сигнала управления ALF.

 

Амплитудная характеристика полного параллельного синтезатора этого типа для различных гласных показана на Рис. 16 и 17. Этот синтезатор предназначен для покрытия диапазона частот до 4 кГц, что достаточно для большинства практических применений. Приближение к каскадному соединению для всех этих гласных при правильно установленной амплитуде управления так близко, что не может быть показано графически (ошибки заметно меньше, чем 1 дБ, на всех частотах до 4 кГц). Рис. 16 показывает эффект увеличения амплитуды F2 на 6 дБ, как на Рис. 8 - 10, и видно, что спектральные эффекты гораздо более приемлемы, особенно на низких частотах. Рис. 17 показывает, что вариации интенсивности формант, которые могут возникнуть в результате изменения вокального усилия, не вызывают резких изменений формы спектра между резонансными пиками или ниже частоты F1.

 

Рис. 16

Рис. 16. Отклик предложенного параллельного синтезатора для тех же условиях, которые были использованы для Рис. 8-10.

 

 

Рис. 17

Рис. 17. Влияние на отклик синтезатора изменений амплитуд формант, чтобы смоделировать изменения вокальных усилий. Тонкие линии представляют нормальное вокальное усилие, а толстые линии показывают уменьшенное вокальное усилие.

 

Когда резонатор FN действительно необходим для его номинальной цели моделирования спектрального пика около 300 Гц в носовых согласных и носовых гласных, реальная координата -150 Гц слишком велика. Компромиссное значение, скажем, -90 Гц было найдено, чтобы быть всё ещё совместимым с довольно хорошим моделированием каскадного отклика без носовых, но могло бы также произвести разумные копию низкочастотного спектрального пика в носовых звуках. Для ещё лучшего моделирования низкочастотной области для полного спектра голосовых звуков может быть необходимо разработать какое-то более тщательно продуманное расположение фильтров, но конфигурация, описанная здесь, как показано, способна создавать речь, которая субъективно очень близка к естественной.

 

Предыдущая  Содержание  Следующая