Improvement of robustness using selective sound segregation for automatic speech recognition systems in noisy environments (Speech) -- (国際ワークショップ"Asian workshop on speech science and technology")
スポンサーリンク
概要
- 論文の詳細を見る
This paper proposes the concept of our novel robust speech recognition method based on the selective sound segregation model, and demonstrates that the proposed method can play an effective role to improve robustness of automatic speech recognition (ASR) systems in various noisy environments. Almost all ASR systems for noise environments attempt to transform an input sound into a clean speech or reference patterns into ones adapted for noises using a noise model, and calculate similarity between an input sound and reference patterns. In our proposed method, the possibility of existence of a target speech in an input sound is employed as a measure of recognition. The possibility of existence of a target speech is calculated by validity of the selective sound segregation model without any noise model. An ASR system based on our proposed method was implemented. To evaluate our proposed ASR system, Japanese digits recognitions in various noisy environments were carried out using traditional ASR systems and the proposed one. Results showed that the proposed method is more robust than other in experimental conditions in SNR = 0 dB. These indicate the proposed method can play an effective role to improve robustness of the ASR systems.
- 社団法人電子情報通信学会の論文
- 2008-03-13
著者
-
Unoki Masashi
School of Information Science, Japan Advanced Institute of Science and Technology
-
Akagi Masato
School of Information Science, Japan Advanced Institute of Science and Technology
-
鵜木 祐史
北陸先端科学技術大学院大学
-
Akagi Masato
School Of Information Sci. Japan Advanced Inst. Of Sci. And Technol. (jaist) 1-1 Asahidai Nomi Ishik
-
Unoki Masashi
School Of Information Science Japan Advanced Institute Of Science And Technology
-
HANIU Atsushi
School of Information Science, Japan Advanced Institute of Science and Technology
-
Haniu Atsushi
School Of Information Science Japan Advanced Institute Of Science And Technology
-
Akagi Masato
School Of Information Sci. Japan Advanced Inst. Of Sci. And Technol.
関連論文
- ISO/TC43・ISO/TC43/SC1・ISO/TC43/SC2総会 : 音響に関する国際規格の審議状況:2009ソウル会議
- 変調伝達関数に基づいた骨導音声ブラインド回復法の検討
- 変調伝達関数に基づく音声信号処理(3) - 残響環境下の基本周波数推定法と残響時間のブラインド推定 -
- 音声信号への蝸牛遅延特性を利用した情報ハイディングの検討
- A DOA estimation algorithm based on equalization-cancellation theory (応用音響)
- 線形予測に基づいた骨導音声回復法の総合評価
- A study on the LP-based blind model in restoring bone-conducted speech (Speech) -- (国際ワークショップ"Asian workshop on speech science and technology")
- 音声明瞭度の回復を目的とする線形予測分析に基づいた骨導音声ブラインド回復法の評価(聴覚・音声/一般)
- An LP-based blind restoration method for improving intelligibility of bone-conducted speech (音声)
- ISO/TC43・ISO/TC43/SC1・ISO/TC43/SC2総会 : 音響に関する国際規格の審議状況:2008 Boras会議
- 同時マスキングから推定された聴覚フィルタの同調特性におけるcue音呈示の効果(聴覚と福祉情報工学・一般)
- 同時マスキングにおけるcue音呈示の効果--1kHzプローブ音検知に対するcue音の存在とその周波数配置に関して
- 同時マスキングにおけるcue音呈示の効果 : 1kHzプローブ音に対するマスキング閾値の変化について(音声生成・知覚,聴覚心理,音声学・音韻論,一般)
- SingBySpeaking : 歌声知覚に重要な音響特徴を制御して話声を歌声に変換するシステム(スペシャルセッション・歌情報処理2)
- cue音呈示によって生じる周波数選択性の変化に関する検討
- 方向性の手掛かりが雑音環境下での報知音の検知能力に及ぼす影響(聴覚・音声・言語とその障害,一般)
- ISO/TC43・ISO/TC43/SC1・ISO/TC43/SC2総会 : 音響に関する国際規格の審議状況 : 2008 Boras 会議
- ヒトの聴覚情報処理過程を考慮した音声認識モデル(感情音声,韻律,声質,音声生成・知覚,脳機能,一般)
- 変調伝達関数に基づく音声信号処理(2) - ブラインド残響音声回復法 -
- 残響環境に頑健な音声認識のための前処理 : 音声特有の特徴の利用(認識,理解,対話,一般)
- DS-3-2 蝸牛遅延に基づく電子音響透かし法の総合評価(DS-3.マルチメディア情報ハイディング,シンポジウムセッション)
- EA2010-31 線形予測に基づいた骨導音声回復法の総合評価
- EA2010-27 音声信号への蝸牛遅延特性を利用した情報ハイディングの検討
- MTFに基づいた残響音声パワーエンベロープの回復方法
- MTFに基づいた残響音声パワーエンベロープの回復方法
- A flexible spectral modification method based on temporal decomposition and Gaussian mixture model
- 蝸牛遅延特性に基づいた電子音響透かし法の総合評価
- 雑音残響環境下におけるMTFに基づくパワーエンベロープ回復処理の検討
- ISO/TC 43 ・ISO/TC 43/SC 1 ・ISO/TC 43/SC 2総会 : 音響に関する国際規格の審議状況 : 2009ソウル会議
- A speech dereverberation method based on the MTF concept in power envelope restoration
- An improved method based on the MTF concept for restoring the power envelope from a reverberant signal
- SingBySpeaking : 歌声知覚に重要な音響特徴を制御して話声を歌声に変換するシステム(スペシャルセッション・歌情報処理2)
- A DOA estimation algorithm based on equalization-cancellation theory (応用音響)
- 時間情報と周波数情報を用いた実環境雑音下における基本周波数推定(聴覚・音声・言語とその障害)
- Effects of single-channel speech enhancement algorithms on Mandarin speech intelligibility (応用音響)
- Improvement of robustness using selective sound segregation for automatic speech recognition systems in noisy environments (Speech) -- (国際ワークショップ"Asian workshop on speech science and technology")
- LP-baesd method of blind restoration to improve intelligibility of bone-conducted speech
- 歌声らしさの知覚モデルに基づいた歌声特有の音響特徴量の分析
- A Noise Reduction System in Localized and Non-Localized Noise Environments
- 自然性の高い歌声合成のためのヴィブラート変調周波数の制御法の検討(聴覚・音声, 発声, 感情音声)
- 歌声らしさに影響を与える音響的特徴を考慮した話声からの歌声合成法(聴覚・信号処理/一般)
- 歌声におけるF0動的変動成分の抽出とF0制御モデル
- 変調伝達関数に基づいた骨導音声ブラインド回復法の検討
- 線形予測分析に基づいた骨導音声ブラインド回復法の総合的評価(音声生成・知覚,聴覚心理,音声学・音韻論,一般)
- Noise reduction method based on generalized subtractive beamformer
- Fundamental frequency estimation for noisy speech based on instantaneous amplitude and frequency
- Estimation of fundamental frequency of reverberant speech by utilizing complex cepstrum analysis
- A speech enhancement framework based on noise eigenspace projection (音声)
- Estimate of auditory filter shape using notched-noise masking for various signal frequencies
- DS-3-11 蝸牛遅延特性に基づいた電子音響透かし法の埋め込み限界の検討(DS-3.マルチメディア情報ハイディング,シンポジウムセッション)
- 蝸牛遅延特性に基づいた電子音響透かし法の提案(聴覚・音響信号処理/一般)
- 頑健で正確なF0推定における室内残響特性の影響について(認識,理解,対話,一般)
- 同時・非同時ノッチ雑音マスキングを利用した聴覚フィルタの同調特性の推定(聴覚・信号処理/一般)
- ガンマチャープフィルタバンクの構築
- 残響環境下でのロバストで正確なF0推定法の比較評価(福祉と知能・情動・認知障害,福祉と音声処理,一般)
- 残響環境下でのロバストで正確なF0推定法の比較評価(福祉と知能・情動・認知障害,福祉と音声処理,一般)
- 残響環境下でのロバストで正確なF0推定法の比較評価(福祉と知能・情動・認知障害,福祉と音声処理,一般)
- 複素ケプストラム分析を利用した残響音声の基本周波数推定法(聴覚・音響信号処理/一般)
- DS-4-2 蝸牛遅延に基づいた電子音響透かし法の検討(DS-4. マルチメディア情報ハイディング,シンポジウムセッション)
- 蝸牛遅延特性に基づいた電子音響透かし法の提案
- Comparative evaluation of modulation-transfer-function-based blind restoration of sub-band power envelopes of speech as a front-end processor for automatic speech recognition systems
- Sub-Band Temporal Envelope Restoration for ASR in Reverberation Environment (国際ワークショップ Frontiers in Speech and Hearing Research)
- A study on expressive speech and perception of semantic primitives: comparison between Taiwanese and Japanese (音声)
- A flexible temporal decomposition-based spectral modification method using asymmetric Gaussian mixture model (音声)
- 方向性の手がかりを利用した雑音環境下での報知音の検知能力の向上(聴覚・音声/一般)
- A computational model of co-modulation masking release
- A method of signal extraction from noisy signal based on auditory scene analysis
- Modified Restricted Temporal Decomposition and Its Application to Low Rate Speech Coding
- Foreword to the special issue on "Applied Systems"
- 雑音残響環境下での変調伝達関数に基づくパワーエンベロープ回復処理と音声認識への応用 (音声)
- 雑音残響環境下での変調伝達関数に基づくパワーエンベロープ回復処理と音声認識への応用 (信号処理)
- 雑音残響環境下での変調伝達関数に基づくパワーエンベロープ回復処理と音声認識への応用 (応用音響)
- 雑音が付加された波形からの信号波形の一抽出法
- Evaluations of TS-BASE for speech enhancement and binaural benefits preservation (応用音響)
- Adaptive β-order Generalized Spectral Subtraction for Speech Enhancement
- 残響音声からの基本周波数推定に関する検討
- A Two-Microphone Noise Reduction Method in Highly Non-stationary Multiple-Noise-Source Environments
- 変調伝達関数の概念に基づいた音声伝達指標のブラインド推定法の検討 (応用音響)
- MTFに基づいた残響音声の回復法の検討(聴覚,音声,言語とその障害)
- 電子音響透かし法のための蝸牛遅延フィルタの最適構成に関する検討
- 雑音環境下における音源分離を認識規範とした音声認識法の提案(生成,認識、音響心理)(音声の基礎と応用シンポジウム)
- 雑音残響環境下での変調伝達関数に基づくパワーエンベロープ回復処理と音声認識への応用(オーガナイズドセッション:スピーチエンハンスメント,音声・音響信号処理,音声及び一般)
- 雑音残響環境下での変調伝達関数に基づくパワーエンベロープ回復処理と音声認識への応用(オーガナイズドセッション:スピーチエンハンスメント,音声・音響信号処理,音声及び一般)
- 雑音残響環境下での変調伝達関数に基づくパワーエンベロープ回復処理と音声認識への応用(オーガナイズドセッション:スピーチエンハンスメント,音声・音響信号処理,音声及び一般)
- ISO/TC43・ISO/TC43/SC1・ISO/TC43/SC2総会 : 音響に関する国際規格の審議状況:2011ロンドン会議
- 変調伝達関数の概念に基づいた音声伝達指標のブラインド推定法の検討(音場計測・解析,アクティブ・コントロール,一般)
- 電子音響透かし法のための蝸牛遅延フィルタの最適構成に関する検討(音響信号処理,聴覚,一般)
- 経験的モード分解と変調スペクトル分析を用いた音声区間検出の耐性向上に関する検討 (音声)
- 経験的モード分解と変調スペクトル分析を用いた音声区間検出の耐性向上に関する検討 (応用音響)
- 変調伝達関数に基づいたパワーエンベロープ回復処理における音声区間検出の検討 (応用音響)
- 変調伝達関数に基づいたパワーエンベロープ回復処理における音声区間検出の検討 (音声)
- 13. 雑音環境下における音源分離を認識規範とした音声認識法の提案(第309回研究例会発表要旨)
- 蝸牛遅延特性に基づいたサブバンド型電子音響透かし法の検討
- D-21-9 音響電子透かし技術の評価基準と評価コンテスト(D-21.マルチメディア情報ハイディング・エンリッチメント,一般セッション)
- 音響信号に対する情報ハイディング及びその評価基準の検討(異種メディア融合,コンテンツ処理,メディア検索,電子透かし,一般)
- 音響信号に対する情報ハイディング及びその評価基準の検討(異種メディア融合,コンテンツ処理,メディア検索,電子透かし,一般)
- 蝸牛遅延に基づいた可逆電子音響透かしの検討(臨場感生成,ユニバーサルメディア,ディジタルエンタテインメント,一般)
- 同時マスキングにおけるcue音呈示の効果1kHzプローブ音に対するマスキング闘値の変化について
- ノッチ雑音同時マスキングデータから推定された聴覚フィルタの同調特性に手がかり音呈示が与える影響
- 蝸牛遅延に基づいた可逆電子音響透かしの検討