HMM歌声合成における音高正規化学習の検討

概要

論文の詳細を見る
隠れマルコフモデル (Hidden Markov Model; HMM) に基づく歌声合成システムは HMM テキスト音声合成システムを応用したシステムで,歌声から抽出したスペクトル,基本周波数,ビブラートを HMM でモデル化し,学習した HMM からパラメータを生成することで,任意の歌声が合成できる.しかし,HMM 歌声合成が合成可能な音高は学習データベースに強く依存するため,学習データベースの中に特定の音高が少ない場合や存在しない場合にその音高をうまく合成できない問題があった.この問題を軽減するため,音高をシフトさせたデータを用いて擬似的に学習データを増やす手法や,あらかじめデータを正規化する手法が提案されているが,疑似学習データによる学習時間の増大や,学習アルゴリズムとデータの不一致などの様々な問題があった.そこで本稿では,音符の音高を基準とした対数基本周波数系列の正規化を学習に内包する音高正規化学習手法を提案し,主観評価実験により提案手法の有効性を確認した.
一般社団法人情報処理学会の論文
2012-01-27