統計的手法を用いた音声パワーの分析と制御
スポンサーリンク
概要
- 論文の詳細を見る
母音部の平均対数パワーと音韻遷移部のパワー時間変化パターンについて自然音声データを分析しパワー制御規則化を行った。母音部の平均対数パワーを制御する要因には、基本周波数、隣接音韻の種類、文・呼気段落内位置、当該音韻の種類があり、それらの影響を文章及び単語音声データにより定量的に確認した。これらの分析に基づいて作成したパワー制御モデルを文音声データに適用した結果、既知データに対して平均2乗誤差約2.52dB(標準偏差の39%)、未知データに対して、平均2乗誤差約2.60dB(標準偏差の40%)の精度で推定できることが分かった。また、単語中の素片のパワーパターンをそのまま文章中でのパワーパターンに適用できるかを明らかにするため、単語中と文章中でのパワー制御の違いを調べた。この結果、単語中のパワーパターンを大きく変えずに文章中のパワーパターンを実現できることが分かった。更に、分析合成音に用いた聴取実験により、制御モデルの有効性を確認した。
- 社団法人日本音響学会の論文
- 1993-04-01
著者
-
匂坂 芳典
Atr音声言語通信研究所
-
海木 延佳
(株)ATR自動翻訳電話研究所
-
海木 延佳
シャープ株式会社AVシステム事業本部
-
匂坂 芳典
(株)ATR音声翻訳研究所
-
三村 克彦
(株)ATR自動翻訳電話研究所音声情報処理研究室
-
海木 延佳
(株)ATR自動翻訳電話研究所音声情報処理研究室
関連論文
- 言語情報を利用した母音継続時間長の制御
- 局所的句構造に基づくF_0制御
- 局所的な句構造によるポーズ挿入規則化の検討
- 統計的手法を用いた音声パワーの分析と制御
- 双方向リカレントニューラルネットワークを用いた音素境界推定とその応用
- 複数音素にまたがる誤認識特性を用いた音素候補系列追加モデル
- 仮説数による誤認識箇所推定尺度の評価
- 品詞N-gramと単語N-gramの融合言語モデル
- 接続の方向性を考慮した多重クラスN-gram言語モデル
- 接続の方向性を考慮した多重クラス複合N-gram言語モデル
- 接続の方向性を考慮した多重クラス複合N-gram言語モデル