音声区間検出と雑音抑圧の統合法を用いた雑音下音声認識(音響処理・話者同定,第10回音声言語シンポジウム)
スポンサーリンク
概要
- 論文の詳細を見る
本研究では,雑音下音声認識における頑健なフロントエンド処理について述べる.提案するフロントエンド処理は音声区間検出(VAD:Voice Activity Detection)と雑音抑圧を統合した処理となっており,(1)確率モデルの共有,(2)音声/非音声状態確率を用いたWienerフィルタ設計,(3)雑音抑圧音声を用いたVAD性能の改善の3点が手法を構成する大きな要素となっている.また提案手法は逐次処理によりフレーム遅延無しで処理を行うことが可能である.本研究では提案手法を用いることにより,連続発話音声の認識をフレーム遅延無しで実行し,かつ認識性能の大幅な改善が得られることを示す.また,CMNと音響モデルの逐次適応との併用による評価についても述べる.
- 社団法人電子情報通信学会の論文
- 2008-12-02
著者
-
石塚 健太郎
日本電信電話株式会社NTTコミュニケーション科学基礎研究所
-
藤本 雅清
日本電信電話株式会社NTTコミュニケーション科学基礎研究所
-
中谷 智広
NTTコミュニケーション科学基礎研究所
-
中谷 智広
日本電信電話(株)基礎研究所 情報科学研究部
-
藤本 雅清
NTTコミュニケーション科学基礎研究所
-
藤本 雅清
日本電信電話(株)nttコミュニケーション科学基礎研究所
-
中谷 智広
日本電信電話(株)nttコミュニケーション科学基礎研究所
-
FUJIMOTO Masakiyo
the ATR Spoken Language Communication Research Laboratories
-
中谷 智広
Nttコミュニケーション科学基礎研究所日本電信電話株式会社
-
中谷 智広
日本電信電話(株)
-
Fujimoto Masakiyo
Department Of Electronics And Informatics Faculty Of Science And Technology Ryukoku University
関連論文
- 多人数会話シーン分析に向けた実時間マルチモーダルシステムの構築 : マルチモーダル全方位センサを用いた顔方向追跡と話者ダイアリゼーションの統合(テーマセッション2,アンビエント環境知能)
- 多人数会話シーン分析に向けた実時間マルチモーダルシステムの構築 : マルチモーダル全方位センサを用いた顔方向追跡と話者ダイアリゼーションの統合(テーマ関連セッション2)
- 時変ガウス音源モデルと多チャネル自己回帰観測モデルに基づく最ゆう法による音響信号の残響除去(ブラインド信号処理の技術とその応用論文)
- 音響情報と映像情報の統合による多人数会話における話者決定技術(音響処理・話者同定,第10回音声言語シンポジウム)
- 調波構造と音源方向に基づく音源分離法における残響耐性の改善(音響と音声処理,音声強調,ロバスト音声認識)
- 音響・言語モデルの適応処理によるスポーツ実況中継の音声認識(音声,聴覚)
- 音響・言語適応処理を用いたスポーツ実況中継音声の認識 : ハイライトシーン検出への応用
- 周波数領域における音声信号の残響除去のためのクロスバンド効果補正(音響信号処理/一般)
- マルチモーダルインタラクションによるニュース映像中の人物認識(システム論文特集号)
- 音声認識システムSOLONの日本語話し言葉コーパスによる評価(2006年版)(第8回音声言語シンポジウム)