波形接続型音声合成における素片選択遅延時間の短縮(音声,聴覚)

概要

論文の詳細を見る
波形接続型音声合成における応答遅延時間を短縮するための素片選択方法について議論を行う.波形接続型音声合成では,高品質の音声を得るために大規模な音声素片データベースが用いられることが多いが,これにより素片選択処理に要する時間も増加している.動的計画法に基づく従来の素片選択方法では,一発話全体に対する素片仮説展開を終える前に最適素片系列が決まる保証がなく,事実上,素片選択処理のパイプライン化による高速化が不可能であるが,本論文では,処理のパイプライン化を実現するため,展開仮説端までの累積コストを基準とする強制的な素片決定による素片選択方法を提案する.強制的な素片決定による素片選択結果の悪化が予想されるが,女声47.6時間の音声素片データベースを用いる音声合成システムを用いた実験では,およそ800ms先まで仮説を展開することで,従来法と同等な素片選択結果が得られた.また,素片選択結果の悪化を抑えるために,N-best仮説展開に基づく探索についても検討を行ったところ,現在の計算機性能においてそのような探索が最適となるのは,極端な短遅延設定を行った場合に限られることが明らかとなった.
社団法人電子情報通信学会の論文
2007-01-01