多段リスコアリングに基づく大規模音声中の任意検索語検出(音声,聴覚)

概要

論文の詳細を見る
本論文では,数百時間以上の大規模な音声データ中の検索語検出に関する研究結果について述べる.一般に音声中の検索語検出技術は,検索対象の音声データを前処理して音声用のインデックスを生成するインデキシング部と,ユーザが指定した検索語の発話箇所を高速に検出する検索部に分かれている.大規模音声データを対象とした検索語検出では(1)高精度な検索,(2)高速な検索,(3)任意語彙の検索,(4)高速なインデキシング,といった要素を考慮する必要がある.本論文では,音素N-gram探索法,編集距離に基づく音素マッチング,及び,本論文で新たに提案する音響リスコアリング法を縦列接続することによる,高速かつ高精度な任意検索語の検出法を提案する.本論文で提案した手法は日本語話し言葉コーパス全講演604時間の中から,平均5.7回しか出現しない未知語を約1.4秒でF値67.8%の精度で検出可能である.また既知語の検索に関しても,大語彙連続音声認識によって作成された単語単位のインデックスに基づいて検索を行う手法と比較して3.5〜4.0ポイントの精度劣化にとどまり,かつ0.11xRTでのインデキシングが可能である.
2012-04-01