複数話者の音声認識における音源方向経路間距離を用いた3-D N-best探索法の改善
スポンサーリンク
概要
- 論文の詳細を見る
ハンズフリー音声認識において、話者の位置を推定することは非常に重要である。その方法として、短・長時間のパワーを用いて話者の位置を推定する方法がある。しかしこの方法では、SNRが低い環境下においては、話者の位置を推定することは難しいという問題がある。この問題を解決する方法として、これまでに話者位置推定と音声認識を統合した3-Dビタビ探索法を提案している。しかしこの方法は、話者が1人の場合には話者位置推定および音声認識において有効な方法であったが、複数の話者には対応できないとう問題があった。そこで著者らはこれまでに、複数の話者が同時に発話しても認識が可能である方法を提案している。その方法とは、3-Dビタビ探索法を拡張させて、入力フレーム、HMM状態、話者方向で構成される3-Dトレリス空間内で、N-best探索を行なうことである。本稿では、音源方向経路間の距離に基づいてクラスタリングを行なうことにより、3-D N-best探索法の改善を試みたので、その方法について報告する。
- 一般社団法人情報処理学会の論文
- 1999-12-20
著者
-
イラクレウス パニコス
奈良先端科学技術大学院大学
-
HERACLEOUS Panikos
ATR-SLT
-
Heracleous Panikos
Graduate School Of Information Science Nara Institute Of Science And Technology
-
中村 哲
Graduate School of Information Science, Nara Institute of Science and Technology
-
鹿野 清宏
Graduate School of Information Science, Nara Institute of Science and Technology
関連論文
- 3D N-best 探索法に基づく複数音源の位置推定と音声認識の統合
- Non-Audible Murmur (NAM) Recognition Exploiting Adaptation Techniques
- 3次元N-best探索に基づく複数音源の同時認識における確率正規化の検討
- 複数話者の音声認識における音源方向経路間距離を用いた3-D N-best探索法の改善
- 3次元N-best探索に基づく複数音源の同時認識
- マルチ発話様式を考慮した肉伝導音声認識用音響モデルに関する予備的検討(特徴量, 区間検出)