音響・言語モデルの適応処理によるスポーツ実況中継の音声認識(音声,聴覚)
スポンサーリンク
概要
- 論文の詳細を見る
本研究では,野球のラジオ実況中継音声からハイライトシーンを検出するために,大語彙連続音声認識を行い,インデックス情報(キーワード)を抽出することを目的としている.音声認識部をより頑健にするために,音響モデルでは,MLLR+MAP適応による教師あり,教師なしの2段階適応を提案している.この音響モデルの適応により,アナウンサーの話者性や収録環境に適応することができ,ベースラインに比べ単語正解精度で約28%の改善が得られた.言語モデルでは,言語モデルの融合による適応と,選手名や解説者名のクラス化,発音辞書の修正を行い,ベースラインに比べ単語正解精度で約13%の改善が得られた.それぞれの適応処理を統合することにより,単語正解精度で約38%の改善が得られた.
- 2004-06-01
著者
-
緒方 淳
産業技術総合研究所
-
藤本 雅清
日本電信電話株式会社NTTコミュニケーション科学基礎研究所
-
有木 康雄
神戸大学工学部
-
藤本 雅清
ATR音声言語コミュニケーション研究所
-
藤本 雅清
龍谷大学理工学部
-
塚田 清志
株式会社毎日放送メディア開発局
-
塚田 清志
毎日放送
-
塚田 清志
大阪株式会社開発部
-
塚田 清志
株式会社毎日放送
-
有木 康雄
神戸大学工学研究科
関連論文
- Hyperlinking Lyrics : 複数の楽曲の歌詞中に共通して登場するフレーズ間へのリンク作成手法(アプリケーション)
- 合同特別企画: パネルディスカッション「"音"研究の未来」
- 音響・言語モデルの適応処理によるスポーツ実況中継の音声認識(音声,聴覚)
- 音響・言語適応処理を用いたスポーツ実況中継音声の認識 : ハイライトシーン検出への応用
- 集合知に基づく語彙情報を用いたトピック依存言語モデリング(理解)
- PodCastle--ポッドキャスト音声認識のための集合知を活用した音響モデル学習
- ポッドキャスト音声認識の性能向上手法 : 集合知によって更新されるWebキーワードを活用した言語モデリング(学生セッション I)
- ポッドキャストを対象とした類似エピソード検索手法(学生セッション I)
- 有声・無声休止区間の自動検出を考慮したデコーディングによる自由発話音声認識の性能改善(音声,聴覚)
- ライブストリーミングのための協調的音声書き起こしシステム