7. Сигналы возбуждения для параллельных синтезаторов |
Предыдущая Содержание Следующая |
7.1. Голосовое возбуждениеКак уже было предложено в Разделе 5, желательно сделать, чтобы уровень возбуждения на частотах формант параллельных синтезаторов не зависел от вокальных усилий и уровня громкости, но не очевидно, как определение интенсивности голосового возбуждения должно быть связано с основной частотой. Мощность голосового возбуждения могла бы быть контролируемой, чтобы сохранить одинаковую среднюю плотность мощности спектра при изменении F0. Такой выбор подразумевал бы, что амплитуда импульса возбуждения должна быть обратно пропорциональна квадратному корню из F0. Возможные альтернативы в том, что интенсивности гармоник должны быть независимы от F0, или что мощность каждого импульса возбуждения должна быть независимой от F0. Последнее определение является наиболее удобным для вписывания в определение амплитуды высших формант, приведённое в Разделе 5. Такой выбор означает, что средняя мощность голосового возбуждения может быть равной глухому возбуждению только на одной частоте, которая может быть выбрана как некоторое среднее значение величины F0.
Соображения, представленные в Разделе 5, привели к решению, что для гласных формантная система должна быть способна предоставлять отклик каскадного синтезатора. В Разделах 5 и 6 было установлено, что с помощью универсальной параллельной системы можно вплотную приблизиться к каскадному отклику, при условии, что используется специальный резонатор низкой частоты, названный FN. В звуках голоса изменения для компенсации вариаций вокального усилия и любых других вариаций спектра возбуждения могут быть сделаны с помощью управления амплитудой формант, чтобы изменять относительные интенсивности всех формант по отношению к уровню низкочастотного сигнала. Такое соглашение, конечно, не обеспечивает контроль над всеми спектральными свойствами голосовой речи на основе от гармоники-к-гармонике, а также не определяет точную временную структуру краткосрочного спектра кроме той, что определяется периодичностью возбуждения. Поэтому важно, чтобы любые такие особенности, которые могут быть значимыми для восприятия, были бы предусмотрены некоторым другим способом.
Хотя они имеют очень небольшое значение для разборчивости речи, несколько самых нижних гармоник голосовой речи (то есть обычно ниже частоты F1) содержат большую часть мощности сигнала и имеют очень большое влияние на воспринимаемое качество. Приемлемости синтетической речи, несомненно, вредит, если эта область спектра большой мощности включена, но не хорошо моделируется (для комментариев по этому аспекту в отношении LPC вокодеров смотрите, например, Ванг, Сяо и Маркел [25]). Стилизованное представление формы волны голосовых связок, предложенное Розенбергом [19], показано на Рис. 18. Показывая спектр дважды дифференцированной формы сигнала, Рис. 19 показывает, как спектр импульса такой формы отличается от наклона -12 дБ на октаву, что часто цитируют в качестве представляющего типичный импульс голосовых связок. Видно, что для данного сигнала вторая гармоника на 5.6 дБ сильнее, а четвёртая гармоника на 2.9 дБ сильнее, чем подходит для наклона -12 дБ на октаву. Детальные характеристики низких частот, так как они весьма значимы для восприятия, поэтому должны быть сохранены, если требуется достигнуть необходимого качества низких частот. Холмс [17] обсудил моделирование импульса голосовых связок по отношению к формантным синтезаторам и рекомендовал сигнал возбуждения на основе второй производной по времени типичного импульса объёмного потока в голосовой щели. Для импульсов голосовой щели с наклоном -12 дБ на октаву на высоких частотах дважды дифференцированный сигнал будет иметь примерно плоский спектр, но и для других импульсов была описана спектрально-сглаживающая процедура, которая примерно сохраняла относительные амплитуды близких гармоник в спектре и сохраняла фазовую структуру кратковременного спектра.
Рис. 18. Стилизованный импульс голосовой щели, составленный из синусоидальных сегментов.
Рис. 19. Уровни нескольких самых низких гармоник во второй производной сигнала по времени, показанного на Рис. 18 относительно среднего уровня высших гармоник.
Если только что описанный сигнала возбуждения используется в качестве источника на Рис. 12, выход должен быть способен хорошо моделировать звук речи, из которого была получена форма импульса возбуждения, при условии, что фильтры возбуждения и выходные фильтры выбраны подходящим образом. Совместное действие этих фильтров должно было бы компенсировать двойное дифференцирование возбуждения и смоделировать эффект излучения, и должно таким образом дать -6 дБ на октаву во всём диапазоне частот речи, вплоть до, скажем, 50 Гц.
В целом, практически невозможно обеспечить сигналы возбуждения, соответствующие широкому диапазону форм импульса голосовой щели, и степень, до которой такое моделирования является требуемым, зависит от приложения. Холмсом [17] были выдвинуты некоторые доказательства, чтобы предположить, что некоторые формы импульса голосовой щели могут быть типичными для определённых говорящих, но есть многочисленные доказательства из сигналов, получаемых обратной фильтрацией [22,26,27], что по крайней мере низкочастотные особенности формы импульса голосовой щели во многом аналогичны для большинства людей, и что кроме основной частоты наиболее важным параметром является длительность импульса (или соотношение открытая/закрытая). Таким образом, представляется вероятным, что импульс голосовой щели, получаемый Холмсом через процесс спектрального выравнивания из речи типичного говорящего, может оказаться подходящим для большинства целей. Если при соответствующей длительности такой импульс будет создавать подходящее соотношение между интенсивностями нескольких самых низких гармоник, но это также даст такой род тонких спектральных деталей и временной структуры, который необходим, чтобы вызвать часто наблюдаемое вторичное возбуждение формант иным, чем смыканием связок [18]. (фраза кажется незаконченной, но так в оригинале) Чтобы представить широкое изменение длительности импульса щели, что происходит в человеческой речи, особенно с помощью вокальных усилий, полезно иметь возможность изменять длительность импульсов возбуждения независимо от их частоты повторения. Однако, нет необходимости изменять общую форму спектра с помощью вокального усилия, так как основные эффекты такого изменения формы предоставляются управлением амплитудой формант.
Для приложений, не требующих большого естественного качества речи, можно сделать экономичные приближения к спектру импульса голосовой щели, в частности, на низких частотах с помощью отклика минимально-фазового фильтра второго порядка нижних частот. Импульсная характеристика такого фильтра с частотами полюсов на -100 + j100 Гц показана на Рис. 20 и не очень отличается от инвертированной по времени формы упрощённого человеческого импульса голосовой щели (то есть импульсы голосовой щели достаточно хорошо определяются максимально-фазовой функцией второго порядка). Искажение групповой задержки, вызванное инвертированием во времени, является незначительным для восприятия; поэтому ясно, что импульсная характеристика фильтра с низкой частотой сопряжения пары полюсов и двух нулей в начале s-плоскости могла бы быть использована вместо дважды дифференцированного стилизованного импульса голосовой щели. Эффект изменения длительности импульса щели мог бы быть обеспечен перемещением позиций полюсов в фильтре.
Рис. 20. Импульсная характеристика простого фильтра низких частот второго порядка, подходящего для моделирования спектра голосового источника.
7.2. Глухое возбуждениеВ случае глухих звуков возбуждение не имеет преобладания мощности низких частот, что происходит во время звонких, и точка возбуждения обычно не в голосовой щели. В результате для таких звуков интенсивность низкочастотных формант, вообще говоря, гораздо меньше, чем интенсивность высокочастотных формант. Для многих фрикативных и взрывных близость сужения голосового тракта такова, что полость за сужением почти полностью акустически изолирована от передней части голосового тракта. F1 тогда связана с этой полостью, выступая в качестве резонатора Гельмгольца, но изоляция и тот факт, что точка возбуждения находится в передней части резонатора приводит к тому, что этот резонанс имеет очень незначительное влияние на общую передаточную функцию. Альтернативный способ рассмотрения того же эффекта состоит в том, чтобы рассматривать полюс F1 функции передачи голосового тракта как почти полностью отменённый нулём, поскольку возбуждение может рассматриваться как серии с задней полости, которая имеет очень высокое сопротивление в резонансе [15]. Таким образом, существуют противоположные требования к форме низкочастотного спектра для звонких и глухих звуков. В первом случае F1, как правило, интенсивна и форма спектра возбуждения, даже после дифференцирующего эффекта излучения, повышает интенсивность на нижнем хвосте F1. Для глухих звуков F1 очень слаба или даже не обнаруживается, и спектральная интенсивность ниже частоты F2 падает очень быстро. Если та же формантная система будет использоваться для обоих типов звуков и у амплитуд формант должен быть одинаковый физический смысл в обоих случаях возбуждения, спектральная огибающая должна быть одинаковой во всём диапазоне формантных частот. Однако, наклон -6 дБ на октаву, предлагаемый для комбинированного отклика фильтров формирования спектра ниже частоты F1, очевидно, не подходит для глухих звуков и поэтому желательно, чтобы для таких звуков на типичной частоте F1 низкочастотный подъём был бы уменьшен. Впоследствии будет небольшое изменение в физическом значении управляющего сигнала амплитудой F1 на низких частотах F1, но так как F1, как правило, крайне слаба в глухих звуках, это изменение не имеет практического значения. 7.3. Смешанное голосовое и глухое возбуждениеВ отличие от систем с отдельными резонаторами для глухих звуков, в экономической полностью параллельной системе необходимо смешать оба звонких и глухих возбуждения в одних и тех же резонаторах для звонких фрикативных, аффрикатов и взрывных. Однако, когда требуется смешанное возбуждение, отношение мощности звонких и глухих зависит от частоты форманты. Для F3 и F4 характерно быть почти полностью глухими, когда F1 полностью звонкая. Так как степень звонкости изменяется от полностью глухих к полностью звонким, необходимо заменять мощность глухих мощностью звонких постепенно, начиная с нижней форманты. Схема, которая обладает этими свойствами, была описана Холмсом [17] и работает следующим образом. Каждый формантный генератор имеет своё собственное управление смешиванием возбуждения, которое поддерживает постоянную мощность возбуждения, так как смесь звонких и глухих компонентов изменяется. Сигналы управления микшированием получаются от общего управления "степени звонкости", но каждый из них связан с индивидуально выбранным смещением, так что для заданной степени звонкости они могут предоставлять разные комбинации из различных формант. Полный диапазон управления отдельных смесителей (то есть от полностью глухих к полностью звонким) требует управления входным диапазоном равного только одной трети полного диапазона основного управления звонкостью и сигналы управления этих микшеров, выходящих за границы их ограниченного входного диапазона, заставляют микшер обеспечивать только звонкое или глухое возбуждение соответственно. Сделав диапазон смещений перекрывающим две трети диапазона управления звонкостью, получаем требуемую характеристику, как показано на Рис. 21.
Рис. 21. Характеристики системы смешивания возбуждения в зависимости от изменения звонкости.
Как было указано Рабинером [4] и Клаттом [3], при смешанном возбуждении в человеческой речи фрикативный шум имеет амплитудную модуляцию на частоте звучания, поскольку через сужение голосового тракта движется пульсирующий поток воздуха; у синтезаторов, которые они описали, было предусмотрено моделирование этого эффекта. Хотя такая модуляция, несомненно, часто наблюдается в речевых сигналах и широкополосных спектрограммах, ещё не является адекватно установленным, что это субъективно значимо. Примеры синтеза, описанные Холмсом [17], не использовали модуляцию щелью источника шума, но всё же приводили к результатам, которые в самых жёстких условиях прослушивания были почти неотличимы от естественных примеров речи, которые были смоделированы. Никакие судьи, которые были в состоянии обнаружить различия между естественным и синтетическим, не идентифицировали звуки со смешанным возбуждением как причину их суждений. Однако, если требуется, модуляция может быть представлена в простой форме, как описано Клаттом [3].
|
Предыдущая Содержание Следующая |