音楽音響信号解析のためのガンマ過程に基づく無限複合自己回帰モデル(第15回情報論的学習理論ワークショップ)

概要

論文の詳細を見る
本稿では,音楽音響信号に含まれる複数の基本周波数(F0)を推定したり,音楽音響信号を音色ごとに分離したりするための確率モデルについて述べる.本モデルは,ソース・フィルタ理論に基づく非負値行列因子分解(NMF)を拡張したものであり,観測スペクトログラムを二種類のスペクトル(ソースおよびフィルタ)とそれらの組み合わせに対する時間変化との積へ分解できる.ここで,楽器の発音機構は自己回帰システムであると仮定すると,F0をもつ周期信号(くし型スペクトル)や白色雑音(平坦スペクトル)などのソースにより,楽器の音色を表現する全極型フィルタが駆動されることで多様な楽器音が生成・重畳される過程を考えることになる.しかし,従来は,音響信号に含まれるソースやフィルタの個数が未知である場合でも,事前に指定しておく必要があった.本研究では,ガンマ過程を用いることで,上限のない個数のソースやフィルタを許容可能なノンパラメトリックベイズモデルである無限複合自己回帰モデル(iCARM)を提案する.本モデルの学習のため,変分ベイズ法(VB)と乗法更新則(MU)を組み合わせた効率的な反復最適化アルゴリズムを導出し,スパースな推定が行えることを実験により確認した.
2012-10-31