局所的な句構造によるポーズ挿入規則化の検討
スポンサーリンク
概要
- 論文の詳細を見る
自然で理解しやすい音声を規則によって合成するために,適切なポーズ挿入の規則化を目指し,多数話者のポーズ挿入特性を特に句構造の観点から調べた.分析には,ナレータ10名,各503文中の音声に見られるポーズについて,個人によるポーズ挿入のばらつきの様子,ポーズ時間長の分布の相違を調べた.この結果,ポーズ挿入傾向・ポーズ長分布は話者により相違はあるが,性質の異なる長短2種類のポーズが一般的に存在することが定量的に明らかになった.更にこれら2種類のポーズの性質を明らかにするため,句境界におけるポーズ挿入人数と句構造との関係を調べた結果,特定の句構造のときこれらポーズが挿入されることが示された.この分析結果に基づき,ポーズの入りやすさを示す指標として句境界におけるポーズ挿入人数を用いたポーズ挿入規則を作成した.最後にこの規則によって生成したポーズを用いた合成音声と自然音声から抽出したポーズを用いた合成音声の対比較聴取実験を行った.この結果,自然性において両者の間にほとんど差がないことが判明し,自然音声のポーズをそのまま用いた場合とほとんど変わらない良好なポーズ挿入規則を作成することができた.
- 社団法人電子情報通信学会の論文
- 1996-09-25
著者
関連論文
- 言語情報を利用した母音継続時間長の制御
- 局所的句構造に基づくF_0制御
- 局所的な句構造によるポーズ挿入規則化の検討
- 統計的手法を用いた音声パワーの分析と制御
- 双方向リカレントニューラルネットワークを用いた音素境界推定とその応用
- 複数音素にまたがる誤認識特性を用いた音素候補系列追加モデル
- 仮説数による誤認識箇所推定尺度の評価
- 品詞N-gramと単語N-gramの融合言語モデル
- 接続の方向性を考慮した多重クラスN-gram言語モデル
- 接続の方向性を考慮した多重クラス複合N-gram言語モデル
- 接続の方向性を考慮した多重クラス複合N-gram言語モデル