1. Введение

С тех пор, как управляемые динамически формантные синтезаторы впервые были использованы для синтеза речи [1,2], существуют противоположные точки зрения в пользу каскадного и параллельного соединения резонаторов. Недавно Клатт [3] в очень обстоятельном документе, по-видимому, соединил две стороны вместе описанием программного формантного синтезатора, который использует и каскадное, и параллельное соединение, выбирая одно или другое в зависимости от типа синтезируемого звука. Гласные и согласные, похожие на гласные, используют каскадное соединение, в то время как остальные согласные используют параллельное соединение. В этом докладе я буду доказывать, что при правильной реализации параллельная конфигурация на самом деле превосходна во всех существенных отношениях для гласных и согласных. Этот вывод прямо противоположен тому, который представлен Рабинером в 1968 г. [4].

По общему признанию сторонников каскадного соединения для гласных, чтобы иметь дело со многими согласными звуками должны быть обеспечены специальные условия [5,6]. Таким образом, полноценный синтезатор каскадного типа, как правило, гораздо более сложен, чем это необходимо только для гласных, и требуется значительное количество дополнительной управляющей информации для согласных. Если не уделяется особое внимание, использование отдельных резонаторных систем для различных типов звука может нарушить естественную непрерывность резонанса, как это происходит в человеческой речи на фонетических границах. Например, на переходе между гласной и фрикативным, таким как [s], энергия фрикативного начинает проявляться в высших формантах перед тем, как прекратится голосовое возбуждение, и это шипение постепенно сливается со спектральной структурой полностью глухого [s]. Синтезатор Клатта даёт необходимую преемственность резонанса путём предоставления в нём двух резонаторных систем с одинаковыми параметрами резонанса (то есть каждый резонатор дублируется в каскадном и параллельном соединении).

Конечно, можно использовать каскадный синтез, чтобы сделать разумные приближения для спектров как гласных, так и согласных без отдельной системы для согласных, как это делается в линейном кодировании с предсказанием (linear predictive coding, LPC). В вокодерах LPC функция передачи синтезатора по своей сути содержит только полюсы в z области, используемые обычно для описания фильтров сэмплированных данных [7]. Её реализация по сути эквивалентна каскадному формантному синтезатору, получающему сэмплированные данные, в котором все формантные частоты и полосы могут быть выбраны с полной свободой. Полюсы такой системы могут рассматриваться как представляющие истинные формантные резонансы во время гласных, но некоторые из них, с гораздо большим затуханием, адаптированы к общей роли формирования огибающей спектра в других звуках для изменения интенсивности остальных значимых формант. Основным недостатком синтезаторов с LPC для исследования восприятия речи является то, что трудно связать требуемые параметры формант с информацией управления LPC. LPC синтезаторы не используются даже для применения в вокодерных приложениях настолько хорошо, как это могло бы быть, потому что математический критерий, применяемый в обычном анализе LPC для определения передаточной функции в синтезаторе, не очень хорошо подходит к потребностям человеческого слухового восприятия, и для улучшения этой ситуации Макхоулом и Коселлом [8] и Штрубе [9] были описаны более сложные методы анализа.

Для синтезаторов, которые работают с описанием формант, стоит изучать, какие характеристики могут быть достигнута с использованием только параллельной системы. Клатт цитирует две причины в пользу использования каскадного соединения для некоторых звуков. Первая: "относительные амплитуды формантных пиков для гласных сразу получаются правильными без необходимости иметь отдельные элементы управления амплитудой для каждой форманты", а другая в том, что эта конфигурация включает в себя "более точную модель функции передачи голосового тракта во время создания не назальных сонорных". В этой статье я покажу, что оба этих бесспорных теоретических преимуществ на самом деле не имеют значения на практике, и что простая конфигурация, которая может быть достигнута только с помощью параллельного соединения, фактически предлагает преимущество в характеристиках по сравнению с каскадным соединением, даже для гласных.

В ходе обсуждения ниже предполагается, как это обычно с терминальными аналоговыми синтезаторами, что целью является как можно ближе приблизиться к тем элементам речевых сигналов, которые значимы для восприятия, без собственной важности, связанной с человеческой речью, создаваемой механизмом. Кажется, принято считать, что для достижения этой цели достаточно воспроизвести кратковременный спектр речи, определяемый с помощью разрешения по частоте и времени, аналогичного человеческой слуховой системе.

В стационарном состоянии при произнесении человеком слов кратковременный спектр сигнала является результатом четырёх отдельных факторов:

(i) передаточной функции голосового тракта;

(ii) влияния излучения на губах и ноздрях;

(iii) спектра одного импульса объёмного потока в голосовой щели;

(iv) структурой спектральной линии, обусловленной периодичностью возбуждения.

Свойства возбуждения фрикативных и взрывных для непериодических источников звука замещают факторы (iii) и (iv), а функция передачи голосового тракта зависит от положения точки возбуждения.

Основные проблемы в синтезе речи связаны с факторами (i) и (iii). Влияние излучения может быть хорошо представлено на большей части частотного диапазона речи с помощью простого дифференцирования [10], которое может быть выполнено напрямую, или его действие может быть объединено с другой функцией синтезатора. В терминальных аналоговых синтезаторах, по сути, вполне приемлемо объединить некоторые аспекты вышеприведённых факторов (ii) и (iii) в системе фильтров, формирующих спектр. Для нормального качества голоса и в каскадном, и в параллельном синтезаторах речи для получения источника голосового возбуждения используется периодический сигнал, а требование иметь не периодическое возбуждение для особых параметров голоса одинаково влияет и на каскадные, и на параллельные синтезаторы; по этой причине фактор (iv) не требует дальнейшего обсуждения в этом докладе.

Предыдущая Содержание Следующая