平均声に基づく対話音声合成に関する検討(テーマセッション,クロスモーダル)

概要

論文の詳細を見る
少量の音声データから自然な対話音声を合成することを目的とし,平均声と話者適応を用いた隠れセミマルコフモデルに基づく音声合成手法について検討を行う.対話音声は自発性が高く,朗読音声と異なり音声の音響的特徴が話者や発話様式・発話意図などの影響を受け多様に変化するため,目標話者の限られた音声データのみで自然性の高い合成音声を生成することは容易ではない.提案法ではあらかじめ複数の話者の音声データを用いて学習された平均声モデルに対して話者適応を行うことにより,目標話者の音声データが数分以下とごく限られている場合でも目標話者の音響モデルを学習することが可能である。本研究では,対話音声,読上げ音声をそれぞれ用いて学習した平均声モデルを話者適応したモデルから得られた合成音声を客観実験により評価した.実験結果から,提案法による合成音声は従来の話者依存モデルに比べて良好な結果が得られ,また読上げ音声よりも対話音声を用いて学習した平均声モデルを用いた方が,客観評価において優れた結果となった.
2010-01-14