構造評価関数を用いた構造的表象からの音声合成系の高精度化(言語獲得・学習,合成,生成,韻律,一般)

概要

論文の詳細を見る
音声は年齢,性別,声道長や音響機器などの非言語的特徴によって変形し,多様性に富んでいる.筆者らはこれらの非言語的な音響変形におよそ不変な音声の構造的・抽象的表象を提案してきた.この表象は音声の動きのみに着眼した物理表象である.先行研究において,音声の構造的表象に基づく音声合成の枠組みを提案し,その基礎的検討を行ってきた.提案する枠組みでは音声発話を発話内容(語形)と発話者の身体性に分離して捉え,生成に際しては話者不変の語形に発話者の身体性を付与する事で合成音声を得る.これは,幼児の音声模倣に対応する音声合成のモデルといえる.本稿では提案する枠組みと幼児の音声模倣の対応について考察し,加えて構造評価関数とそれに基づく音響事象の推定法(音響空間における定位法)を導入する事で,従来手法における幾何学的アプローチと比べて,技術的な改善を試みた.連続音声を対象とした音声合成実験を行い,主観評価実験の結果から,提案手法において高次の特徴量分割手法を導入した場合における品質の向上を確認した.
社団法人電子情報通信学会の論文
2009-11-19