Noise Robust Voice Activity Detection Based on Switching Kalman Filter
スポンサーリンク
概要
- 論文の詳細を見る
This paper addresses the problem of voice activity detection (VAD) in noisy environments. The VAD method proposed in this paper is based on a statistical model approach, and estimates statistical models sequentially without a priori knowledge of noise. Namely, the proposed method constructs a clean speech/silence state transition model beforehand, and sequentially adapts the model to the noisy environment by using a switching Kalman filter when a signal is observed. In this paper, we carried out two evaluations. In the first, we observed that the proposed method significantly outperforms conventional methods as regards voice activity detection accuracy in simulated noise environments. Second, we evaluated the proposed method on a VAD evaluation framework, CENSREC-1-C. The evaluation results revealed that the proposed method significantly outperforms the baseline results of CENSREC-1-C as regards VAD accuracy in real environments. In addition, we confirmed that the proposed method helps to improve the accuracy of concatenated speech recognition in real environments.
- (社)電子情報通信学会の論文
- 2008-03-01
著者
-
藤本 雅清
NTTコミュニケーション科学基礎研究所
-
FUJIMOTO Masakiyo
NTT Communication Science Laboratories, NTT Corporation
-
FUJIMOTO Masakiyo
the ATR Spoken Language Communication Research Laboratories
-
ISHIZUKA Kentaro
NTT Communication Science Laboratories, NTT Corporation
-
Fujimoto Masakiyo
Ntt Communication Science Laboratories Ntt Corporation
-
Fujimoto Masakiyo
Department Of Electronics And Informatics Faculty Of Science And Technology Ryukoku University
-
Ishizuka Kentaro
Ntt Communication Science Laboratories Ntt Corporation
関連論文
- 多人数会話シーン分析に向けた実時間マルチモーダルシステムの構築 : マルチモーダル全方位センサを用いた顔方向追跡と話者ダイアリゼーションの統合(テーマセッション2,アンビエント環境知能)
- 多人数会話シーン分析に向けた実時間マルチモーダルシステムの構築 : マルチモーダル全方位センサを用いた顔方向追跡と話者ダイアリゼーションの統合(テーマ関連セッション2)
- 音響情報と映像情報の統合による多人数会話における話者決定技術(音響処理・話者同定,第10回音声言語シンポジウム)
- 雑音下音声認識評価ワーキンググループ活動報告 : 認識に影響する要因の個別評価環境(3)(SIG-SLP内組織の活動報告)
- 雑音下音声認識評価ワーキンググループ活動報告 : 認識に影響する要因の個別評価環境(2)(雑音・VAD,第9回音声言語シンポジウム)
- 雑音下音声認識評価ワーキンググループ活動報告 : 認識に影響する要因の個別評価環境 (2)(雑音・VAD,第9回音声言語シンポジウム)
- 雑音下音声認識評価ワーキンググループ活動報告 : 認識に影響する要因の個別評価環境(第8回音声言語シンポジウム)
- 雑音下音声認識評価ワーキンググループ活動報告 : 認識に影響する要因の個別評価環境(Session-1 検出,第8回音声言語シンポジウム)
- 音声認識における頑健性 : 音響分析・音響モデル,なにが課題か(企画)
- CENSREC-1-C : 雑音下音声区間検出評価基盤の構築
- SLP雑音下音声認識評価WG活動報告 : 評価用データと評価手法について(Session-6 スペシャルセッション: 共通コーパスを利用した耐雑音技術評価, 第7回音声言語シンポジウム)
- 実走行車内音声認識の評価データベースCENSREC-3とその共通評価ベースライン
- 実走行車内単語音声データベースCENSREC-3と共通評価環境の構築
- CENSREC-3 : 実走行車内単語音声データベースと評価環境の構築(ポスターセッション)(第6回音声言語シンポジウム)
- 実環境下音声認識の評価の標準化とその動向(音声・言語における標準化動向)(第6回音声言語シンポジウム)
- AURORA-2Jを用いたETSI STQ Aurora WI008 Advanced DSR Frontendの評価(ポスターセッション)(第5回音声言語シンポジウム)
- AURORA-2Jを用いたETSI STQ Aurora WI008 Advanced DSR Frontendの評価(第5回音声言語シンポジウム : ポスターセッション)
- 音声認識システムSOLONの日本語話し言葉コーパスによる評価(2006年版)(第8回音声言語シンポジウム)
- 音声認識システムSOLONの日本語話し言葉コーパスによる評価(2006年版)(Session-7 システム,第8回音声言語シンポジウム)
- 音声区間検出の基礎と最近の研究動向(音声・言語・音響教育,一般)
- 雑音下音声認識評価ワーキンググループ活動報告 : 認識に影響する要因の個別評価環境(2)(雑音・VAD,第9回音声言語シンポジウム)
- Dirichlet事前分布を用いた音声区間検出の検討
- 音声区間検出技術の最近の研究動向
- 雑音下マルチモーダル音声認識評価基盤CENSREC-1-AVの構築
- 多人数会話シーン分析に向けた実時間マルチモーダルシステムの構築 : マルチモーダル全方位センサを用いた顔方向追跡と話者ダイアリゼーションの統合(テーマセッション2,アンビエント環境知能)
- Dirichlet事前分布を用いた音声区間検出の検討(韻律・VAD,第11回音声言語シンポジウム)
- Dirichlet事前分布を用いた音声区間検出の検討 (音声)
- 雑音下音声認識評価ワーキンググループ活動報告 : 認識に影響する要因の個別評価環境(Session-1 検出,第8回音声言語シンポジウム)
- CENSREC-2 : 実走行車内における連続数字音声データベースと評価環境の構築
- 自動車内における連続数字音声コーパスCENSREC-2の設計と評価(Session-7 スペシャルセッション(ポスター): 共通コーパスを利用した耐雑音技術評価, 第7回音声言語シンポジウム)
- Switching dynamical systemとパーティクルフィルタを用いた非定常雑音の逐次推定(Session-1 音響モデル・特徴量・学習, 第7回音声言語シンポジウム)
- 自動車内における連続数字音声コーパスCENSREC-2の設計と評価(Session-7 スペシャルセッション(ポスター): 共通コーパスを利用した耐雑音技術評価, 第7回音声言語シンポジウム)
- SLP雑音下音声認識評価WG活動報告 : 評価用データと評価手法について(Session-6 スペシャルセッション: 共通コーパスを利用した耐雑音技術評価, 第7回音声言語シンポジウム)
- 自動車内における連続数字音声コーパスCENSREC-2の設計と評価(Session-7 スペシャルセッション(ポスター): 共通コーパスを利用した耐雑音技術評価, 第7回音声言語シンポジウム)
- SLP雑音下音声認識評価WG活動報告 : 評価用データと評価手法について(Session-6 スペシャルセッション: 共通コーパスを利用した耐雑音技術評価, 第7回音声言語シンポジウム)
- Switching dynamical systemとパーティクルフィルタを用いた非定常雑音の逐次推定(Session-1 音響モデル・特徴量・学習, 第7回音声言語シンポジウム)
- Switching dynamical systemとパーティクルフィルタを用いた非定常雑音の逐次推定(Session-1 音響モデル・特徴量・学習, 第7回音声言語シンポジウム)
- 音声認識システムSOLONの日本語話し言葉コーパスによる評価(2006年版)(Session-7 システム,第8回音声言語シンポジウム)
- ポスター会話に対する発話区間検出と話者識別の検討(コミュニケーション・対話,第9回音声言語シンポジウム)
- ポスター会話に対する発話区間検出と話者識別の検討(コミュニケーション・対話,第9回音声言語シンポジウム)
- ポスター会話に対する発話区間検出と話者識別の検討(コミュニケーション・対話,第9回音声言語シンポジウム)
- CENSREC-1-C : An evaluation framework for voice activity detection under noisy environments
- 音声区間推定と時間周波数領域方向推定の統合による会議音声話者識別(音響信号処理/一般)
- 音響情報と映像情報の統合による多人数会話における話者決定技術(音響処理・話者同定,第10回音声言語シンポジウム)
- 音響情報と映像情報の統合による多人数会話における話者決定技術(音響処理・話者同定,第10回音声言語シンポジウム)
- CENSREC-3 : 実走行車内単語音声データベースと評価環境の構築(ポスターセッション)(第6回音声言語シンポジウム)
- 実環境下音声認識の評価の標準化とその動向(音声・言語における標準化動向)(第6回音声言語シンポジウム)
- CENSREC-3 : 実走行車内単語音声データベースと評価環境の構築(ポスターセッション)(第6回音声言語シンポジウム)
- 実環境下音声認識の評価の標準化とその動向(音声・言語における標準化動向)(第6回音声言語シンポジウム)
- AURORA-2Jを用いたETSI STQ Aurora WI008 Advanced DSR Frontendの評価(第5回音声言語シンポジウム : ポスターセッション)
- AURORA-2J/AURORA-3Jデータベースとその評価ベースライン
- 雑音下音声認識のための複数の前処理手法の統合とそのAURORA-2Jによる評価
- 音声区間検出と雑音抑圧の統合法を用いた雑音下音声認識(音響処理・話者同定,第10回音声言語シンポジウム)
- 音声区間検出と雑音抑圧の統合法を用いた雑音下音声認識(音響処理・話者同定,第10回音声言語シンポジウム)
- 音声区間検出と雑音抑圧の統合法を用いた雑音下音声認識(音響処理・話者同定,第10回音声言語シンポジウム)
- 確率モデルに基づく音声区間検出と雑音抑圧の統合法の評価と考察(認識,理解,対話,一般)
- 複数の音声区間検出法の適応的統合の検討と考察(雑音・VAD,第9回音声言語シンポジウム)
- パーティクルフィルタとPolyak Averagingを用いた非定常雑音の抑圧(耐雑音)
- パーティクルフィルタに基づく雑音抑圧法を用いた非定常雑音及び残響環境下での音声認識
- SLP雑音下音声認識評価のためのWG : 評価データ収集について
- SLP雑音下音声認識評価ワーキンググループ活動報告
- AURORA-2J: An Evaluation Framework for Japanese Noisy Speech Recognition(Speech Corpora and Related Topics, Corpus-Based Speech Technologies)
- AR-GARCHモデルに基づいた音声区間検出手法の提案(音声,聴覚)
- CENSREC-3: An Evaluation Framework for Japanese Speech Recognition in Real Car-Driving Environments(Speech and Hearing)
- A Non-stationary Noise Suppression Method Based on Particle Filtering and Polyak Averaging(Speech Recognition, Statistical Modeling for Speech Processing)
- Fundamental Frequency Estimation for Noisy Speech Using Entropy-Weighted Periodic and Harmonic Features
- 複数の音声区間検出法の適応的統合の検討と考察
- 複数の音声区間検出法の適応的統合の検討と考察(雑音・VAD,第9回音声言語シンポジウム)
- 複数の音声区間検出法の適応的統合の検討と考察(雑音・VAD,第9回音声言語シンポジウム)
- Hands-free speech recognition in real environments using microphone array and 2-levels MLLR adaptation as a front-end system for conversational TV
- Noise Robust Voice Activity Detection Based on Switching Kalman Filter
- 音声と雑音両方の状態遷移過程を有する雑音下音声区間検出(第8回音声言語シンポジウム)
- 音声と雑音両方の状態遷移過程を有する雑音下音声区間検出(Session-1 検出,第8回音声言語シンポジウム)
- 音声と雑音両方の状態遷移過程を有する雑音下音声区間検出(Session-1 検出,第8回音声言語シンポジウム)
- 雑音のバイアス-残差成分の分解と各成分の最適化に基づく雑音抑圧の検討(音響モデル・雑音・分析,第12回音声言語シンポジウム:情報アクセス,音声・言語処理一般)
- 雑音のバイアス-残差成分の分解と各成分の最適化に基づく雑音抑圧の検討(音響モデル・雑音・分析,第12回音声言語シンポジウム:情報アクセス,音声・言語処理一般)
- 複数人会話シーン分析におけるマイクロホンアレイ音声処理(一般,音声・音響信号処理,音声及び一般)
- 複数人会話シーン分析におけるマイクロホンアレイ音声処理(一般,音声・音響信号処理,音声及び一般)
- 複数人会話シーン分析におけるマイクロホンアレイ音声処理(一般,音声・音響信号処理,音声及び一般)
- 雑音モデルの頑健なオンライン推定法に基づく雑音抑圧の検討(オーガナイズドセッション:スピーチエンハンスメント,音声・音響信号処理,音声及び一般)
- 雑音モデルの頑健なオンライン推定法に基づく雑音抑圧の検討(オーガナイズドセッション:スピーチエンハンスメント,音声・音響信号処理,音声及び一般)
- 雑音モデルの頑健なオンライン推定法に基づく雑音抑圧の検討(オーガナイズドセッション:スピーチエンハンスメント,音声・音響信号処理,音声及び一般)
- 音声の周期性・非周期性成分比とSwitching Kalman filterに基づく雑音下音声区間検出(音響処理)
- 話者適応と雑音混合モデル推定の同時適用による雑音抑圧(耐雑音処理,第13回音声言語シンポジウム)
- 話者適応と雑音混合モデル推定の同時適用による雑音抑圧(耐雑音処理,第13回音声言語シンポジウム)
- 音声区間検出の基礎と世界的な研究動向,今後の展開
- CENSREC-4: An evaluation framework for distant-talking speech recognition in reverberant environments
- 対数スペクトル事前分布を用いたMAPスペクトル推定に基づく劣決定音源分離(ブラインド信号処理,一般)