音声とテキストの自動対応付けによる音声インデキシング手法とその評価(要約, 検索, 認識・理解・対話・一般)

スポンサーリンク

概要

論文の詳細を見る
本稿では, 現在開発をすすめているマルチメディアデータ検索システムとその中核を構成する音声インデキシングモジュールについて述べる.特にインデキシングモジュールに対して適用した音声とテキストの自動対応付け手法について評価を行った.Voice-Pause法を対応付け手法として適用し, 発話スタイルの異なる音声データ「日本語話し言葉コーパス」(CSJ)の学会講演音声および「五体不満足データベース」を評価に用いた.発話スタイルの違いに対応するために, Voice-Pause法のパラメータの調整を行った.提案手法をCSJ講演音声に適用した結果, ラベルとの平均誤差は0.506秒であり, 朗読音声に対しては0.382秒という性能が得られた.これは音声データの発話スタイルが異る場合でもほぼ同等のインデキシング性能が得られることを示した.
社団法人電子情報通信学会の論文
2005-06-16

著者

関連論文

もっと見る

スポンサーリンク