音素片と文字列カーネルを用いた語彙制約のないトピック分割について

概要

論文の詳細を見る
本論文では,大語彙連続音声認識(LVCSR)を用いることなしに,入力音声を意味的に等質な部分に分割する手法を提案する.この手法は,音声を,音素よりも粒度の細かい音素片の列として認識した上で,文字列カーネルを用いて分析区間どうしの類似性を計算し,類似した分析区間を併合することで音声の構造化を行う.文字列カーネルは,与えられた2つの文字列に共通して含まれる任意の部分文字列の出現頻度に基づいて文字列の類似性を計算する.LVCSRとテキストのトピック分割を組合せた従来の方法が,単語の分布の類似性に基づいて音声の構造化を行うのに対して,提案手法は,音素片の部分列の分布の類似性に基づいて構造化を行う.LVCSRを用いないことにより,語彙や文法に制約されることがなく,タスクや分野に依存しない音声のトピック分割が可能になる.さらに,このようなトピック分割法は,ニュース音声コーパスを用いた実験において,従来法と比較して同等以上の性能を有していることが示される.
社団法人電子情報通信学会の論文
2006-05-19