Fundamental Frequency Estimation for Noisy Speech Using Entropy-Weighted Periodic and Harmonic Features
スポンサーリンク
概要
- 論文の詳細を見る
This paper proposes a robust method for estimating the fundamental frequency (F0) in real environments. It is assumed that the spectral structure of real environmental noise varies momentarily and its energy does not distribute evenly in the time-frequency domain. Therefore, segmenting a spectrogram of speech mixed with environmental noise into narrow time-frequency regions will produce low-noise regions in which the signal-to-noise ratio is high. The proposed method estimates F0 from the periodic and harmonic features that are clearly observed in the low-noise regions. It first uses two kinds of spectrogram, one with high frequency resolution and another with high temporal resolution, to represent the periodic and harmonic features corresponding to F0. Next, the method segments these two kinds of feature plane into narrow time-frequency regions, and calculates the probability function of F0 for each region. It then utilizes the entropy of the probability function as weight to emphasize the probability function in the low-noise region and to enhance noise robustness. Finally, the probability functions are grouped in each time, and F0 is obtained as the frequency with the highest probability of the function. The experimental results showed that, in comparison with other approaches such as the cepstrum method and the autocorrelation method, the developed method can more robustly estimate F0s from speech in the presence of band-limited noise and car noise.
- 社団法人電子情報通信学会の論文
- 2004-01-01
著者
-
AKAGI Masato
Japan Advanced Institute of Science and Technology
-
Akagi Masato
Japan Advanced Inst. Sci. And Technol. Ishikawa Jpn
-
石本 祐一
東京工科大学片柳研究所
-
ISHIMOTO Yuichi
Japan Advanced Institute of Science and Technology
-
ISHIZUKA Kentaro
NTT Communication Science Laboratories, NTT Corporation
-
AIKAWA Kiyoaki
Tokyo University of Technology
-
Ishimoto Yuichi
School Of Information Science Japan Advanced Institute Of Science And Technology
-
Ishizuka Kentaro
Ntt Communication Science Laboratories Ntt Corporation
関連論文
- 変調伝達関数に基づいた骨導音声ブラインド回復法の検討
- 線形予測に基づいた骨導音声回復法の総合評価
- 音声に含まれる感情情報の認識 : 感情空間をどのように表現するか
- 「うん」と先行発話の音響的特徴による機能分類
- 方向性の手掛かりが雑音環境下での報知音の検知能力に及ぼす影響(聴覚・音声・言語とその障害,一般)
- ヒトの聴覚情報処理過程を考慮した音声認識モデル(感情音声,韻律,声質,音声生成・知覚,脳機能,一般)
- 基本周波数包絡が異なる感情音声聴取時の脳活動測定
- 聴覚末梢系の機能モデルの提案 : 聴神経の位相固定性及びスパイク生成機構のモデル化
- EA2010-31 線形予測に基づいた骨導音声回復法の総合評価
- メディアの協働効果実現に向けたオープンメディアリソース構築
- 「うん」と先行発話の音響的特徴による機能分類(聴覚・音声・言語とその障害,一般)
- 雑音残響環境下におけるMTFに基づくパワーエンベロープ回復処理の検討
- fMRIを用いた歌声と話声における脳活動の差異の検討
- Influences of real-time auditory feedback on formant perturbations
- On the Application of Temporal Decomposition to VQ-Based Speaker Identification
- 時間情報と周波数情報を用いた実環境雑音下における基本周波数推定(聴覚・音声・言語とその障害)
- Effects of single-channel speech enhancement algorithms on Mandarin speech intelligibility (応用音響)
- エントロピーによる重み付けを用いた雑音環境下での基本周波数推定
- 変調伝達関数に基づいた骨導音声ブラインド回復法の検討
- アジアの音
- Fundamental frequency estimation for noisy speech based on instantaneous amplitude and frequency
- Estimate of auditory filter shape using notched-noise masking for various signal frequencies
- A Noise Reduction Method Based on a Generalized Subtractive Beamformer
- 残響環境下でのロバストで正確なF0推定法の比較評価(福祉と知能・情動・認知障害,福祉と音声処理,一般)
- 残響環境下でのロバストで正確なF0推定法の比較評価(福祉と知能・情動・認知障害,福祉と音声処理,一般)
- 残響環境下でのロバストで正確なF0推定法の比較評価(福祉と知能・情動・認知障害,福祉と音声処理,一般)
- 聴神経の順応特性の計算機シミュレーション : 順応の音圧レベル依存特性のモデル化
- 「うん」の音響的系譜〜応答・承認・相槌の自動抽出に向けて〜
- Improvement of the Restricted Temporal Decomposition Method for LSF Parameters
- Fundamental Frequency Estimation for Noisy Speech Using Entropy-Weighted Periodic and Harmonic Features
- 雑音が付加された音声の基本周波数推定と雑音抑圧
- Noise Robust Voice Activity Detection Based on Switching Kalman Filter
- Evaluations of TS-BASE for speech enhancement and binaural benefits preservation (応用音響)
- Adaptive β-order Generalized Spectral Subtraction for Speech Enhancement
- 残響音声からの基本周波数推定に関する検討
- 瞬時振幅の周期性・調波性を基にした相関係数統合による基本周波数推定
- 周期性雑音を含む音声に対する瞬時振幅を利用した基本周波数推定法
- 周期性と調波性を考慮した雑音環境における基本周波数推定法の改良
- 周期性と調波性を考慮した雑音環境における基本周波数推定
- 雑音中の音声基本周波数推定法の提案
- A Two-Microphone Noise Reduction Method in Highly Non-stationary Multiple-Noise-Source Environments
- 発話末要素の有無の韻律的予測
- Comparison of Emotion Perception among Different Cultures
- 残響環境下におけるTS-BASE/WFの性能評価--TS-BASE/WFの改良手法についての検討
- 聴取印象に着目した音声の個人性知覚に関する基礎研究
- 会長就任にあたって : 新たな四半世紀に向けて計画から実行へ
- 雑音残響環境下での変調伝達関数に基づくパワーエンベロープ回復処理と音声認識への応用(オーガナイズドセッション:スピーチエンハンスメント,音声・音響信号処理,音声及び一般)
- 雑音残響環境下での変調伝達関数に基づくパワーエンベロープ回復処理と音声認識への応用(オーガナイズドセッション:スピーチエンハンスメント,音声・音響信号処理,音声及び一般)
- 雑音残響環境下での変調伝達関数に基づくパワーエンベロープ回復処理と音声認識への応用(オーガナイズドセッション:スピーチエンハンスメント,音声・音響信号処理,音声及び一般)
- 招待講演 聴覚と音研究
- 変調伝達関数の概念に基づいた音声伝達指標のブラインド推定法の検討(音場計測・解析,アクティブ・コントロール,一般)
- 電子音響透かし法のための蝸牛遅延フィルタの最適構成に関する検討(音響信号処理,聴覚,一般)
- EEGによる基本周波数の時間変化に応じた脳活動の計測
- Construction of a Test Collection for Spoken Document Retrieval from Lecture Audio Data
- 音情景理解を応用した音声プライバシー保護(異種メディア融合,コンテンツ処理,メディア検索,電子透かし,一般)
- 音情景理解を応用した音声プライバシー保護(招待講演,異種メディア融合,コンテンツ処理,メディア検索,電子透かし,一般)
- 変調伝達関数に基づいたパワーエンベロープ回復処理における音声区間検出の検討(一般,音声・音響信号処理,音声及び一般)
- 変調伝達関数に基づいたパワーエンベロープ回復処理における音声区間検出の検討(一般,音声・音響信号処理,音声及び一般)
- 変調伝達関数に基づいたパワーエンベロープ回復処理における音声区間検出の検討(一般,音声・音響信号処理,音声及び一般)
- 2周波数混合波形による瞬時周波数計測の精度評価 : FFTを使用しない瞬時周波数計測(一般,音声・音響信号処理,音声及び一般)
- A low-cost concatenative TTS for monosyllabic languages (音声)
- Improving Naturalness of HMM-Based TTS Trained with Limited Data by Temporal Decomposition
- フーリエ変換を使用しない基本周波数測定による楽器音F0推定 : 時間・周波数分界能の考察
- 残響音声からの音声伝達指標のブラインド推定法の検討