Speaker Recognition by Combining MFCC and Phase Information in Noisy Conditions
スポンサーリンク
概要
- 論文の詳細を見る
In this paper, we investigate the effectiveness of phase for speaker recognition in noisy conditions and combine the phase information with mel-frequency cepstral coefficients (MFCCs). To date, almost speaker recognition methods are based on MFCCs even in noisy conditions. For MFCCs which dominantly capture vocal tract information, only the magnitude of the Fourier Transform of time-domain speech frames is used and phase information has been ignored. High complement of the phase information and MFCCs is expected because the phase information includes rich voice source information. Furthermore, some researches have reported that phase based feature was robust to noise. In our previous study, a phase information extraction method that normalizes the change variation in the phase depending on the clipping position of the input speech was proposed, and the performance of the combination of the phase information and MFCCs was remarkably better than that of MFCCs. In this paper, we evaluate the robustness of the proposed phase information for speaker identification in noisy conditions. Spectral subtraction, a method skipping frames with low energy/Signal-to-Noise (SN) and noisy speech training models are used to analyze the effect of the phase information and MFCCs in noisy conditions. The NTT database and the JNAS (Japanese Newspaper Article Sentences) database added with stationary/non-stationary noise were used to evaluate our proposed method. MFCCs outperformed the phase information for clean speech. On the other hand, the degradation of the phase information was significantly smaller than that of MFCCs for noisy speech. The individual result of the phase information was even better than that of MFCCs in many cases by clean speech training models. By deleting unreliable frames (frames having low energy/SN), the speaker identification performance was improved significantly. By integrating the phase information with MFCCs, the speaker identification error reduction rate was about 30%-60% compared with the standard MFCC-based method.
- (社)電子情報通信学会の論文
- 2010-09-01
著者
-
山本 一公
豊橋技術科学大学
-
Nakagawa Seiichi
Toyohashi Univ. Technol. Toyohashi‐shi Jpn
-
Nakagawa Seiichi
Toyohashi Univ. Of Technol. Toyohashi‐shi Jpn
-
YAMAMOTO Kazumasa
Toyohashi University of Technology
-
Yamamoto Kazumasa
Faculty Of Engineering Shinshu University
-
Yamamoto Kazumasa
Graduate School Of Science And Technology Shinshu University
-
Yamamoto K
Toyohashi University Of Technology
-
WANG Longbiao
Shizuoka University
-
MINAMI Kazue
Toyohashi University of Technology
-
Wang Longbiao
Shizuoka Univ. Hamamatsu‐shi Jpn
関連論文
- 長時間分析に基づく位相情報を用いた音声認識の検討 (音声)
- 雑音下音声認識評価ワーキンググループ活動報告 : 認識に影響する要因の個別評価環境(3)(SIG-SLP内組織の活動報告)
- 雑音下音声認識評価ワーキンググループ活動報告 : 認識に影響する要因の個別評価環境(2)(雑音・VAD,第9回音声言語シンポジウム)
- 雑音下音声認識評価ワーキンググループ活動報告 : 認識に影響する要因の個別評価環境 (2)(雑音・VAD,第9回音声言語シンポジウム)
- 雑音下音声認識評価ワーキンググループ活動報告 : 認識に影響する要因の個別評価環境(第8回音声言語シンポジウム)
- 雑音下音声認識評価ワーキンググループ活動報告 : 認識に影響する要因の個別評価環境(Session-1 検出,第8回音声言語シンポジウム)
- CENSREC-1-C : 雑音下音声区間検出評価基盤の構築
- SLP雑音下音声認識評価WG活動報告 : 評価用データと評価手法について(Session-6 スペシャルセッション: 共通コーパスを利用した耐雑音技術評価, 第7回音声言語シンポジウム)
- 実走行車内音声認識の評価データベースCENSREC-3とその共通評価ベースライン
- 実走行車内単語音声データベースCENSREC-3と共通評価環境の構築
- CENSREC-3 : 実走行車内単語音声データベースと評価環境の構築(ポスターセッション)(第6回音声言語シンポジウム)
- 実環境下音声認識の評価の標準化とその動向(音声・言語における標準化動向)(第6回音声言語シンポジウム)
- E-055 VADが音声認識性能に与える影響(E分野:自然言語・音声・音楽)
- 長時間分析に基づく位相情報を用いた音声認識の検討(認識,理解,対話,一般)
- Hidden Conditional Neural Fieldsを用いた音声認識における目的関数と階層的音素事後確率特徴量の検討
- 重要文抽出に基づく講義音声の自動要約
- 雑音下音声認識評価ワーキンググループ活動報告 : 認識に影響する要因の個別評価環境(2)(雑音・VAD,第9回音声言語シンポジウム)
- Hidden Conditional Neural Fieldsを用いた音声認識の検討
- 距離付きn-gramインデックスによる認識誤りと未知語に頑健な高速検索法
- 雑音下マルチモーダル音声認識評価基盤CENSREC-1-AVの構築
- Topic dependent language model based on on-line voting (言語理解とコミュニケーション)
- 音声に含まれるプライバシ情報の保護(センシングウェブ)
- 日本語講義音声コンテンツコーパスの作成と分析
- 複数仮説を考慮した講義音声認識結果の自動整形
- 位相情報を利用した話者識別・照合法の評価(ポスターセッション,第10回音声言語シンポジウム)
- 位相情報を利用した話者識別・照合法の評価(ポスターセッション,第10回音声言語シンポジウム)
- A transitive translation for Indonesian-Japanese CLQA (自然言語処理)
- A Machine Learning Approach for an Indonesian-English Cross Language Question Answering System(Natural Language Processing)
- Indonesian-Japanese Transitive Translation using English for CLIR
- 雑音下音声認識評価ワーキンググループ活動報告 : 認識に影響する要因の個別評価環境(Session-1 検出,第8回音声言語シンポジウム)
- SLP雑音下音声認識評価WG活動報告 : 評価用データと評価手法について(Session-6 スペシャルセッション: 共通コーパスを利用した耐雑音技術評価, 第7回音声言語シンポジウム)
- SLP雑音下音声認識評価WG活動報告 : 評価用データと評価手法について(Session-6 スペシャルセッション: 共通コーパスを利用した耐雑音技術評価, 第7回音声言語シンポジウム)
- 位相情報を利用した話者識別・照合法の評価(ポスターセッション,第10回音声言語シンポジウム)
- 重要文の連続性を考慮した講義音声の自動要約(チャンキング・要約)
- HMMに基づく音声認識のための音節モデルとtriphoneモデルの比較
- 話速・音韻間距離・尤度と音声認識性能の関係
- 音節モデルによる連続音声認識の性能の検討
- STRAIGHTによるスペクトル包絡特性を用いた連続音節認識
- 雑音重畳音声のフレーム間相関と音声認識性能に関する考察
- 音声知覚実験による音声認識モデル単位の検討
- CENSREC-1-C : An evaluation framework for voice activity detection under noisy environments
- Auditory perception versus automatic estimation of location and orientation of an acoustic source in a real environment
- CENSREC-3 : 実走行車内単語音声データベースと評価環境の構築(ポスターセッション)(第6回音声言語シンポジウム)
- 実環境下音声認識の評価の標準化とその動向(音声・言語における標準化動向)(第6回音声言語シンポジウム)
- Topic dependent language model based on on-line voting (音声)
- Topic dependent language model based on clustering of noun word history
- Word and class dependency of N-gram language model (音声言語情報処理)
- Word and class dependency of N-gram language model (言語理解とコミュニケーション・第9回音声言語シンポジウム)
- Word and class dependency of N-gram language model (音声・第9回音声言語シンポジウム)
- TEXT-INDEPENDENT SPEAKER IDENTIFICATION ON TIMIT DATABASE
- Text-Independent/Text-Prompted Speaker Recognition by Combining Speaker-Specific GMM with Speaker Adapted Syllable-Based HMM(Speaker Recognition, Statistical Modeling for Speech Processing)
- 話者の同定を組み込んだニュース音声の認識
- 発話スタイルの違いが音声認識に及ぼす影響についての検討
- 朗読音声と自然発話音声の違いのスペクトル分布, 継続時間分布および認識率による検討
- HMM合成による雑音環境下でのセグメント単位入力HMMのモデル補償法
- 音声認識におけるサンプリング周波数とフロントエンドの違いに対するモデル補償
- 音声認識におけるサンプリング周波数とフロントエンドの違いに対するモデル補償
- セグメント単位入力HMMのコンテキスト依存、混合分布化による連続音声認識
- フロントエンドの違いによる認識性能の比較
- パソコン用連続音声認識クライアント・サーバシステムの実装
- 雑音環境下での音声認識におけるセグメント単位入力HMMの評価
- セグメント統計量を用いた隠れマルコフモデルによる音声認識
- セグメント単位入力の混合分布型HMMの評価
- セグメント単位入力HMMとその評価
- セグメント単位入力HMMと条件付きHMMの比較・評価
- AURORA-2J: An Evaluation Framework for Japanese Noisy Speech Recognition(Speech Corpora and Related Topics, Corpus-Based Speech Technologies)
- Evaluation of Combinational Use of Discriminant Analysis-Based Acoustic Feature Transformation and Discriminative Training
- LVCSR based on context-dependent syllable acoustic models (Speech) -- (国際ワークショップ"Asian workshop on speech science and technology")
- Robust distant speech recognition by combining variable-term spectrum based position-dependent CMN with conventional CMN (Speech) -- (国際ワークショップ"Asian workshop on speech science and technology")
- Linear Discriminant Analysis Using a Generalized Mean of Class Covariances and Its Application to Speech Recognition
- Robust Speech Recognition by Combining Short-Term and Long-Term Spectrum Based Position-Dependent CMN with Conventional CMN
- LVCSR based on context-dependent syllable acoustic models
- Robust distant speech recognition by combining variable-term spectrum based position-dependent CMN with conventional CMN
- Noisy Speech Recognition Based on Integration/Selection of Multiple Noise Suppression Methods Using Noise GMMs
- A Survey on Automatic Speech Recognition(Special Issue on the 2000 IEICE Excellent Paper Award)
- Speaker Recognition by Combining MFCC and Phase Information in Noisy Conditions
- Distant Speech Recognition Using a Microphone Array Network
- Auditory perception versus automatic estimation of location and orientation of an acoustic source in a real environment
- Distant-Talking Speech Recognition Based on Spectral Subtraction by Multi-Channel LMS Algorithm
- Response Timing Detection Using Prosodic and Linguistic Information for Human-friendly Spoken Dialog Systems
- INVESTIGATIONS ON TEXT-INDEPENDENT SPEAKER IDENTIFICATION
- Frequency Warped Wiener Filtering for Mel-LPC based Speech Recognition
- NMFとVQ手法による音楽重畳音声の音声認識(音声・言語・音響教育,一般)
- Mel-Wiener Filter for Mel-LPC Based Speech Recognition(Speech and Hearing)
- 複数理解候補の保持と効率性・自然性を考慮した応答生成による誤認識に頑健な音声対話戦略とその評価(音声,聴覚)
- 運動障害性構音障害者の発話明瞭度改善に対する音響パラメータを用いた自動推定法 : 歌唱・発声リハビリテーションを介して
- 音声ドキュメント検索のための音節ラティスの拡張とn-gram索引の削減手法(音声検索,第13回音声言語シンポジウム)
- 音声ドキュメント検索のための音節ラティスの拡張とn-gram索引の削減手法(音声検索,第13回音声言語シンポジウム)
- 複数の対話エージェントを用いた音声対話システムの分析と評価
- 複数の対話エージェントを用いた音声対話システムの分析と評価
- 複数理解候補の保持と効率性・自然性を考慮した応答生成による誤認識に頑健な音声対話戦略とその評価
- 音声ドキュメント検索のための音節ラティスの拡張と n-gram 索引の削減手法
- CENSREC-4: An evaluation framework for distant-talking speech recognition in reverberant environments
- 音声ドキュメント検索のための音節ラティスの拡張と n-gram 索引の削減手法
- 音声対話インタフェースにおけるロボットエージェントの優位性の評価
- Risk-Based Semi-Supervised Discriminative Language Modeling for Broadcast Transcription
- 単一対話エージェントと複数対話エージェントを用いた音声対話システムの分析と評価
- 少数のステレオデータに基づく特徴量変換による残響除去(雑音対策,認識,理解,対話,一般)
- Risk-Based Semi-Supervised Discriminative Language Modeling for Broadcast Transcription
- Higher Order Mode Radiations of Weakly Relativistic Oversized Backward Wave Oscillator