HMM音声合成におけるモデル補間・適応による発話スタイルの多様化の検討(合成, 韻律, 生成, 一般)

概要

論文の詳細を見る
本論文では,HMMに基づく音声合成システムにおいて音声の発話スタイルや感情表現の多様化を目的に,話者性の多様化手法である話者補間と話者適応の発話スタイルや感情表現への応用について検討する.まず,話者補間手法を応用して異なる複数の発話スタイルのモデルを補間することにより,中間的な発話スタイルの音声を合成する手法について検討した.主観評価試験により,「読み上げ」と「楽しげ」および「読み上げ」と「悲嘆」の2つのモデルを補間して得られた合成音声は,それぞれの中間的な発話スタイル,感情表現となっていることが示された.また,最尤様形回帰に基づく話者適応手法を応用して異なる発話スタイルヘ適応する手法について検討した.「読み上げ」の発話スタイルのモデルを「楽しげ」,「悲嘆」,「ぞんざい」の各発話スタイル,感情表現へ適応し,得られた合成音声に対して主観評価試験を行った結果,50文章程度の適応データを用いることにより,目標の発話スタイルに近い音声を合成できることが示された.
社団法人電子情報通信学会の論文
2003-08-15