BICに基づく統計的話者モデル選択による教師なし話者インデキシング(音声,聴覚)
スポンサーリンク
概要
- 論文の詳細を見る
統計的に最適な話者モデルを選択しながら,教師なし話者インデキシングを行う手法を提案する.討論などの実世界の音声では,話者ごとの発話時間のばらつきが大きいため,画一的なモデルで話者認識・インデキシングを行うのが困難である.そこで,BIGに基づいて発話の継続時間に応じて統計的に最適な話者モデル(GMMまたはVQ)を選択する方式を提案する.本方式では,発話時間の短い音声に対してVQモデル,長い音声に対してはGMMモデルが選択される枠組みを実現する.これにより,事前に話者モデルを用意しなくても,話者数が未知である条件で話者のインデキシングが可能となる.実際の討論音声に対して,従来法に比べて高いインデキシング精度を得ることができた.また,本手法により得られた話者インデキシング結果に基づいて音響モデルを話者適応することにより,音声認識精度を改善することができた.
- 社団法人電子情報通信学会の論文
- 2004-02-01
著者
関連論文
- ユーザ負担のない話者・環境適応性を実現する自然な音声対話処理技術の総合開発(総合報告)
- 会議録作成支援のための国会審議の音声認識システム (画像符号化・映像メディア処理レター特集)
- 音声理解を指向したベイズリスク最小化枠組みに基づく音声認識(音声,聴覚)
- SLP音声ドキュメント処理ワーキンググループ活動報告(ドキュメント処理・翻訳・言語獲得,第10回音声言語シンポジウム)
- オンライン変分ベイズ学習に基づくモデル比較を用いた音声区間検出(認識)
- 会議録作成支援のための国会審議の音声認識システム(音声,聴覚)
- 11.人にやさしい音声インタフェース(第2部:情報の高信頼蓄積・検索技術等の開発,学と産の連携による基盤ソフトウェアの先進的開発)
- 音声翻訳単位の推定における句読点情報の効果(ドキュメント処理・翻訳・言語獲得,第10回音声言語シンポジウム)
- 音声対話技術コンソーシアム(ISTC)の活動成果報告(SIG-SLP内組織の活動報告)
- 講義音声認識に基づくノートテイクシステム(福祉と音声処理,一般)