9. Производительность и выводы

Формантный синтезатор, включающий особенности, объяснённые в этой работе, постепенно эволюционировал в Объединенном Исследовательское Подразделении Речи (Joint Speech Research Unit) в течение последних 20 лет. В своей последней форме он существует как программа на Фортране и оборудовании специального назначения реального времени. Он лишь немногим отличается от более ранней формы, описанной Холмсом [17], и упрощённая блок-схема параллельной системы формантных фильтров, которая включает в себя особенности, имеющие отношение к этой работе, показана на Рис. 23. У версии на Фортране есть условия для простого изменения многих аспектов проектирования и обе версии имеют много специальных особенностей, которые могли бы применяться одинаково хорошо и в каскадном синтезе и поэтому здесь не были упомянуты. Подробная информация о разработке не подходит для этой работы, но она была описана в отдельном докладе [28].

Рис. 23. Упрощенная блок-схема параллельной формантной системы фильтров синтезатора JSRU.

Синтезатор JSRU охватывает диапазон частот до 4 кГц и широко применяется для формантного вокодера [29], синтеза по правилу [30] и высококачественного копирования естественной речи с помощью оптимизированных вручную сигналов управления [31]. Хотя по синтезу женских и детских голосов было проделана некоторая работа, этот синтезатор почти всегда использовался для речи взрослых мужчин. Поэтому не представляется возможным сделать авторитетные заявления о то, что он подходит для других типов голоса, хотя аргументы в этой работе должны применяться одинаково хорошо для других случаев, если надлежащим образом изменить диапазоны частот.

Используя ручную оптимизацию, появилась возможность делать копии речи взрослого мужчины субъективно настолько близких к естественной в диапазоне 4 кГц, что большинству судей необходимо повторять прослушивание парных сравнений, чтобы решить, что есть что, и некоторые опытные судьи на самом деле делали неправильно выбор. Показанная на Рис. 24 пара спектрограмм иллюстрирует, насколько близко типичное синтетическое предложение может приближаться к естественной речи. На Рис. 25 приведены спектральные сечения для не-носовых гласных, плавного звука, носового согласного и период придыхания окончания глухого.

Fig. 24. (a) Спектрограмма естественной речи;
(b) Спектрограмма на выходе синтезатора JSRU.

Рис. 25. Спектральные сечения в местах, отмеченных на Рис. 24.

Пока та же степень внимания к деталям управляющего сигнала не сделана для каскадного синтезатора, невозможно утверждать, насколько близкая копия человеческой речи тем самым может быть достигнута. Однако, даже при создании гласных, тот факт, что каскадный синтезатор не может легко обеспечить изменения вокального усилия является, очевидно, серьёзным недостатком. Поскольку приближение плоской волны ломается на высоких частотах, никакая форма модели не представляет правильно сигнал выше 3 кГц, но параллельный синтезатор может представить его субъективно важные особенности способом более непосредственно связанным с требованиями слухового восприятия (например, путём управления спектральными уровнями в критических полосах). Для применений, требующих компоненты сигнала выше 4 кГц, могут быть легко предоставлены один или два дополнительных параллельных фиксированных частотных канала. Этот документ подтверждает, что параллельная форма намного больше подходит для согласных звуков, как и раньше объяснял Клатт [3].

Основные различия между параллельными и каскадными синтезаторами можно просуммировать следующим образом.

(i) параллельный синтезатор может использовать ту же систему источник/фильтр для моделирования всех видов звуков речи и поэтому может соотносить синтезированную речь с непосредственно измеряемыми свойствами человеческой речи, независимо от типа создаваемого звука. Эта функция, вероятно, самое сильное преимущество параллельного синтеза, в частности, для вокодерных приложений.

(ii) Для тех звуков, для которых каскадная модель хорошо подходит (например, гласные), параллельная форма нуждается в дополнительной информации управления. Однако, для синтеза по правилам расчёт необходимых амплитуд формант тривиален и возможность варьировать их позволяет моделировать изменение вокального усилия. Последняя возможность не так удобно реализуема в каскадном синтезаторе.

(iii) Необходимо уделить пристальное внимание конструктивным особенностям параллельного синтеза для достижения хороших результатов, изложенных в этой статье. Хотя осуществление синтеза гласного более сложное, чем в каскадной форме, общая сложность заметно меньше, чем в полном каскадном синтезаторе с адекватными отдельными переделками для согласных звуков.

(iv) В параллельном синтезе нет необходимости ни в каких специальных мерах предосторожности для обеспечения примерно одинакового максимального уровня сигнала в каждом формантном генераторе. В результате легче добиться адекватной характеристики в условиях шума или погрешности квантования, чем в каскадном типе.

Моё мнение, что сочетание всех факторов, упомянутых в этой статье, даёт преимущества и по характеристике и по простоте реализации твёрдо в пользу параллельных формантных синтезаторов для исследования восприятия речи, формантных вокодеров и речевого машинного вывода.