話者正規化スペクトルサブバンドパラメータを用いた雑音下での音声認識
スポンサーリンク
概要
- 論文の詳細を見る
This paper proposes speaker normalized spectral subband centroids (SSCs) as supplementary features in noise environment speech recognition. SSCs are computed as frequency centroids for each subband from the power spectrum of the speech signal. This feature can be obtained reliably even under noisy conditions because SSC are mainly computed from spectral peaks such as formants whose positions are almost unchanged in a noisy environment. Since the conventional SSCs depend on formant frequencies of a speaker, the distributions of SSCs computed from large amounts of speakers will be highly overlapped between different phones. Therefore, we introduce a speaker normalization technique into SSC computation to reduce the speaker variability. Experimental results on spontaneous speech recognition show that the speaker normalized SSCs are more useful as supplementary features for improving the recognition performance than the conventional SSCs. We observed a significant improvement in error rate by 20.3% and 14.3% at SNR=15dB by adding speaker normalized SSCs to the conventional features and by incorporating a speaker normalized technique into the conventional SSCs, respectively.
- 社団法人日本音響学会の論文
著者
-
シンガー ハラルド
ATR Interpreting Telephony Research Laboratories
-
柘植 覚
徳島大学大学院ソシオテクノサイエンス研究部情報ソリューション部門
-
シンガー ハラルド
ATR音声翻訳通信研究所
-
ハラルド シンガー
Atr音声翻訳通信研究所
-
シンガー ハラルド
奈良先端科学技術大学院大学
-
Singer H
Atr Interpreting Telephony Research Lab.
-
深田 俊明
Atr Interpreting Telecommunications Research Laboratories
-
柘植 覚
ATR Interpreting Telecommunications Research Laboratories
-
パリワル クルディップ
ATR Interpreting Telecommunications Research Laboratories
-
Paliwal K
Atr Interpreting Telecommunications Res. Lab. Kyoto Jpn
-
パリワル クルディップ
Atr Interpreting Telecommunications Research Laboratories:school Of Microelectronic Engineering Grif
関連論文
- 距離索引VP-treeにおける解絞込みの一改良手法(マルチメディアデータベース,データ工学論文)
- 雑音下音声認識評価ワーキンググループ活動報告 : 認識に影響する要因の個別評価環境(3)(SIG-SLP内組織の活動報告)
- 雑音下音声認識評価ワーキンググループ活動報告 : 認識に影響する要因の個別評価環境(2)(雑音・VAD,第9回音声言語シンポジウム)
- 雑音下音声認識評価ワーキンググループ活動報告 : 認識に影響する要因の個別評価環境 (2)(雑音・VAD,第9回音声言語シンポジウム)
- 雑音下音声認識評価ワーキンググループ活動報告 : 認識に影響する要因の個別評価環境(第8回音声言語シンポジウム)
- 雑音下音声認識評価ワーキンググループ活動報告 : 認識に影響する要因の個別評価環境(Session-1 検出,第8回音声言語シンポジウム)
- 大規模話者骨導音声データベースを用いたテキスト独立型話者照合実験(一般(ポスターセッション),第9回音声言語シンポジウム)
- CENSREC-1-C : 雑音下音声区間検出評価基盤の構築
- ピッチ周波数依存音素モデルによるHMM音声認識
- 隠れマルコフ網と一般化LR構文解析を統合した連続音声認識
- 3)ピッチとスペクトルの相関を用いたHMM音素認識(視聴覚技術研究会)
- ピッチとスペクトルの相関を用いたHMM音素認識
- WWW画像検索システムを用いた関連語の自動収集手法(検索)
- 大規模話者骨導音声データベースを用いたテキスト独立型話者照合実験(一般(ポスターセッション),第9回音声言語シンポジウム)
- 大規模話者骨導音声データベースを用いたテキスト独立型話者照合実験(一般(ポスターセッション),第9回音声言語シンポジウム)
- 雑音下音声認識評価ワーキンググループ活動報告 : 認識に影響する要因の個別評価環境(2)(雑音・VAD,第9回音声言語シンポジウム)
- 雑音下マルチモーダル音声認識評価基盤CENSREC-1-AVの構築
- 順位統計量を用いた話者照合のためのコホート話者選択方法
- Earth Mover's Distanceを用いたハミングによる類似音楽検索手法(音楽情報検索,便利で身近な音楽情報処理)
- 符号化音声認識のための合成音声を用いた不特定話者音響モデルの適応法(音声,聴覚)
- 分散音声認識における実時間周波数特性正規化手法(音声言語)
- 雑音下音声認識評価ワーキンググループ活動報告 : 認識に影響する要因の個別評価環境(Session-1 検出,第8回音声言語シンポジウム)
- ハミングによる検索機能を備えた音楽配信システムの開発
- 順位統計量を用いた話者照合のためのコホート話者選択方法(一般(ポスターセッション),第11回音声言語シンポジウム)
- サフィックス・アレイに基づく言語モデルを用いた音声認識に関する研究
- 検索質問と字幕の文字画像特徴量間の距離に基づく字幕検索手法
- スペクトルの微細構造を考慮した風雑音除去手法(電気音響,音響一般)
- 多数の話者モデル内での順位情報を用いた話者照合
- G-003 距離尺度にEarth Mover's Distanceを用いたハミングによる類似音楽検索手法(G分野:音声・音楽)
- 順位統計量を用いた話者照合のためのコホート話者選択方法 (音声)
- 対話音声を対象とした連続音声認識システムの試作と評価
- 旅行会話タスクにおけるTARSPRECの性能評価
- 携帯電話型音声翻訳システムATR-MATRIX
- クライアント・サーバ型ATR-MATRIX
- 日英音声翻訳システムATR-MATRIXにおける音声認識用音響・言語モデル
- MCE/GPDを用いた自然発話音声認識における不特定話者音響モデルの改善
- クライアント・サーバ型 ATR-MATRIX
- 4E-7 ATR-MATRIX:日英双方向音声翻訳システム
- WWW画像検索システムにおける有害画像フィルタリング手法
- D-020 WWW画像検索システムにおける有害画像フィルタリング手法(D分野:データベース)
- D-030 WWW画像検索システムを用いた有害サイトURLデータベースの構築手法(D.データベース)
- テキストと画像のクロスメディア情報検索に向けた画像キーワード登録システムの開発
- 地域や年齢的な広がりを考慮した大規模な日本語音声データベース
- 大規模な日本語音声データによる音響モデルの分析
- 順位キューを用いた多次元データの高速近傍検索アルゴリズム
- 出現URLの類似性に着目したWWW空間からの関連語自動収集手法(抽出, 言い換え)
- 音声認識・音声合成を用いた音声途切れ補間手法
- D-019 WWW画像検索システムにおける検索質問拡張に基づくフィードバック検索(D分野:データベース)
- スペクトルの微細構造を考慮した風雑音除去手法
- 長・短期間における音声の話者内変動に関する検討
- ベクトル量子化と Earth Mover's Distance を用いた分散型話者認識手法
- ETSI標準分散音声認識フロントエンドにおける入力系の周波数特性正規化手法
- Simple PCAを用いたベクトル空間情報検索モデルの次元削減
- 統計的手法を用いた音声信号の復元手法の改良
- MPEG映像データに対するカットシーンの高速検出手法
- D-040 領域分割画像に基づく言語メタデータの自動生成手法(D.データベース)
- 話者正規化スペクトルサブバンドパラメータを用いた雑音下での音声認識
- 話者正規化スペクトルサブバンドパラメータを用いた雑音下での音声認識
- 話者正規化スペクトルサブバンドパラメータを用いた雑音下での音声認識
- 話者正規化スペクトルサブバンドパラメータを用いた雑音下での音声認識
- スペクトルサブバンドセントロイドを用いた雑音下での連続音声認識
- スペクトルサブバンドセントロイドを用いた雑音下での音声認識
- スペクトルサブバンドセントロイドを用いた雑音下での音声認識
- スペクトルサブバンドセントロイドを用いた雑音下での音声認識
- 自由発話音声認識における音響分析の比較
- SCALAR QUANTIZATION OF CEPSTRAL PARAMETERS FOR LOW BANDWIDTH CLIENT-SERVER SPEECH RECOGNITION SYSTEMS
- 周波数特性の変動に頑健な実時間分散音声認識手法(耐雑音)(第5回音声言語シンポジウム)
- 周波数特性の変動に頑健な実時間分散音声認識手法(第5回音声言語シンポジウム : 耐雑音)
- 周波数特性の変動に頑健な実時間分散音声認識手法(第5回音声言語シンポジウム : 耐雑音)
- 周波数特性の変動に頑健な実時間分散音声認識手法
- 日本語音声コーパスを用いた ETSI STQ DSR Advanced Front-End の評価
- 音声認識・音声合成を用いた音声途切れ補間手法
- 母音および無音のHMMを用いた音声始端検出法
- 音響モデルの構造決定のための統一的な枠組 : 最尤推定による逐次状態分割法と質問に基づく決定木生成法
- PARALLEL JAPANESE/ENGLISH SPEECH RECOGNITION IN ATRSPREC
- DISTANCE-RELATED UNIT ASSOCIATION MAXIMUM ENTROPY LANGUAGE MODELING
- 日英音声翻訳システム「ATR-MATRIX」における音声認識部分の構造と制御方法
- 複数雑音モデルを用いた風雑音除去手法(合成・生成,韻律,一般)
- サポートベクターマシンによる適合性フィードバックを用いた情報検索(情報検索)
- サポートベクターマシンによる適合性フィードバックを用いた情報検索
- Non-negative Matrix Factorization を用いたベクトル空間情報検索モデルの次元削減手法
- 画像知識データベースを用いたWWW画像検索システムの開発(画像検索・映像データベース)
- HTML形式の表構造の内容解析手法とその応用に関する研究
- Non-negative Matrix Factorizationを用いた情報検索モデルの次元圧縮および検索質問拡張
- Earth Mover's Distanceを用いた分散型話者認識(合成・生成,韻律,一般)
- 大規模顔画像データベースに対する印象語による類似顔画像検索技術に関する研究
- 周波数特性の変動に頑健な分散音声認識手法
- ETSI標準分散音声認識フロントエンドを用いた音声認識実験
- PD-2-3 電話サービスのための音声認証技術
- 音素依存線形判別分析の検討
- Simple PCAを用いたベクトル空間情報検索モデルの次元削減
- Simple PCAを用いたベクトル空間情報検索モデルの次元削減
- 順位統計量を用いたテキスト独立型話者照合手法(音声,聴覚)
- Non-negative Matrix Factorizationを用いた情報検索
- 音声ドキュメント検索におけるクエリ拡張と音節認識の併用の効果 (音声)
- 音声ドキュメント検索におけるクエリ拡張と音節認識の併用の効果 (パターン認識・メディア理解)
- 音声ドキュメント検索におけるクエリ拡張と音節認識の併用の効果(音声処理,時系列パターン認識)
- 音声ドキュメント検索におけるクエリ拡張と音節認識の併用の効果(音声処理,時系列パターン認識)
- 話者認識におけるロバストネス(話者認識に関する研究の動向)
- 話者認識技術の現状と課題(オーガナイズドセッション(パネルディスカッション),音声アプリケーション,一般)