音声/非音声区間検出のための自動モデル学習法の評価(特徴量, 区間検出)

概要

論文の詳細を見る
近年映画やTV等に基づく大量のマルチメディアコンテンツが作成されており, それに基づくデータベースの構築が可能となっている.データの一例であるテレビ番組やラジオ番組等の音声データは音声以外の音が含まれていることが多く, クリーンな音声を対象とする音声認識手法を単純に適用するのは困難となる.本報告の目的はマルチメディアコンテンツに含まれる音声の区間を検出することである.あらかじめ音声以外の不必要な区間を除くことで, 従来の認識手法の障害となっている雑音等による誤認識を避けることができる.本報告では, 既存の音声認識手法が必要とする事前学習に必要な教師信号を自動で与え, 学習により性能を向上させていく手法について提案する.評価用のデータから教師信号を自動で作成することにより, 事前の学習が難しいデータに対しても用いる事ができる.また, 学習時と評価時のデータが異なることによる性能の劣化を抑えることができる.提案手法により最大3.0%の判別誤り率で判別を行うことができた.これはデータの40%から50%を手動でラベル付けしたのと同様の性能である.
2005-06-17