歌声・音声分析合成のためのF0適応多重フレーム統合分析に基づくスペクトル包絡と群遅延の推定法

概要

論文の詳細を見る
本稿では、音声 (歌声及び話声) の高性能な分析と高品質な合成のために、音声信号からそのスペクトル包絡と群遅延を高い精度と時間分解能で推定する手法を、F0 適応多重フレーム統合分析と名付けて提案する。従来、スペクトル包絡推定に関する研究は数多くなされてきたが、適切な包絡の推定は依然困難な課題である。また群遅延を合成に活用する研究があったが、ピッチマークと呼ばれる時刻情報が必要であった。本研究では、まず、全時刻 (全サンプリング点) について、F0 に適応させた短い時定数の窓を用いて FFT を行い、F0 適応スペクトルを推定する。次に、分析時刻毎に近傍の複数フレームから F0 適応スペクトルと群遅延を統合して、最終的なスペクトル包絡と群遅延を得る。スペクトル包絡の推定性能は、14 種類の音サンプル中 13 サンプルにおいて、対数スペクトル距離が 2 種類の既存手法のいずれかよりも低く、8 サンプルにおいて最も低かった。また群遅延を保存して合成できることを確認した。
2012-08-02