パラ言語情報を表現可能な対話音声合成のための重回帰HSMMの検討(音声合成,第13回音声言語シンポジウム)

概要

論文の詳細を見る
本稿では,隠れセミマルコフモデル(HSMM)に基づく音声合成方式に重回帰モデルを組み込んだ重回帰HSMMを用いて,対話音声に見られる多様なパラ言語情報を制御可能な音声合成を目指す.本研究では,パラ言語情報を少数の次元から構成される空間上の座標として表現し,この空間を構成する次元を重回帰モデルの説明変数として用いる.次元には感情状態を表す一般的な指標とされている「快-不快」,「覚醒睡眠」の2つの次元を用いる.モデルの学習時には各発話に対し次元毎に主観的に評価された評価値を用いて学習し,合成時には任意の評価値を与えて任意の感情状態の音声を合成する.合成された音声の音響的特徴量から,2つの次元が合成音声に与える影響について検討する.また,合成された音声に対して3つの主観評価実験を行った.まず,自然性評価を行い,合成された音声の自然性について示した.次に,再現性評価を行い,付与した感情状態の再現性について示した.最後に,感情状態の表出について評価を行い,意図した感情状態が伝達されていることを示した.
2011-12-12