スペクトルサブバンドセントロイドを用いた雑音下での音声認識
スポンサーリンク
概要
- 論文の詳細を見る
音声認識システムを実環境下で使用する場合、背景雑音等で音響モデルの学習環境と認識環境とのミスマッチが生じることが多い。このような環境のミスマッチに対し、ケプストラム等の特徴パラメータは大きく変動してしまうため、認識性能の劣化を引き起こす。本報告では、スペクトル・サブバンド・セントロイド (SSC) を補助的パラメータとして用いることにより、環境のミスマッチによる認識性能の劣化が低減できることを示す。SSCは、ナイキスト周波数をサブバンドに分割したときの各々のサブバンド内のパワースペクトルのセントロイド周波数として定義される。このセントロイド周波数は、雑音下においても変動が少ないため、環境のミスマッチに対してロバストな特徴パラメータであると考えられる。自然発話を用いた音声認識実験結果より、Mel-Frequency Cepstral Coefficients (MFCC) の補助的パラメータとしてSSCとMFCCの二次回帰係数を併用した場合、SNR=10dBにおいて14.3%、SNR=20dBにおいて19.9%の誤り改善率を得ることができた。
- 一般社団法人情報処理学会の論文
- 1997-12-11
著者
-
深田 俊明
ATR音声翻訳通信研究所
-
柘植 覚
徳島大学大学院ソシオテクノサイエンス研究部情報ソリューション部門
-
ハラルド シンガー
Atr音声翻訳通信研究所
-
深田 俊明
Atr Interpreting Telecommunications Research Laboratories
-
柘植 覚
ATR音声翻訳通信研究所
-
クルデイップ パリワル
ATR音声翻訳通信研究所
-
クルデイップ パリワル
Atr音声翻訳通信研究所:griffith大学
関連論文
- 距離索引VP-treeにおける解絞込みの一改良手法(マルチメディアデータベース,データ工学論文)
- 雑音下音声認識評価ワーキンググループ活動報告 : 認識に影響する要因の個別評価環境(3)(SIG-SLP内組織の活動報告)
- 雑音下音声認識評価ワーキンググループ活動報告 : 認識に影響する要因の個別評価環境(2)(雑音・VAD,第9回音声言語シンポジウム)
- 雑音下音声認識評価ワーキンググループ活動報告 : 認識に影響する要因の個別評価環境 (2)(雑音・VAD,第9回音声言語シンポジウム)
- 雑音下音声認識評価ワーキンググループ活動報告 : 認識に影響する要因の個別評価環境(第8回音声言語シンポジウム)
- 雑音下音声認識評価ワーキンググループ活動報告 : 認識に影響する要因の個別評価環境(Session-1 検出,第8回音声言語シンポジウム)
- 大規模話者骨導音声データベースを用いたテキスト独立型話者照合実験(一般(ポスターセッション),第9回音声言語シンポジウム)
- CENSREC-1-C : 雑音下音声区間検出評価基盤の構築
- WWW画像検索システムを用いた関連語の自動収集手法(検索)
- 大規模話者骨導音声データベースを用いたテキスト独立型話者照合実験(一般(ポスターセッション),第9回音声言語シンポジウム)
- 大規模話者骨導音声データベースを用いたテキスト独立型話者照合実験(一般(ポスターセッション),第9回音声言語シンポジウム)
- 雑音下音声認識評価ワーキンググループ活動報告 : 認識に影響する要因の個別評価環境(2)(雑音・VAD,第9回音声言語シンポジウム)
- 雑音下マルチモーダル音声認識評価基盤CENSREC-1-AVの構築
- 順位統計量を用いた話者照合のためのコホート話者選択方法
- Earth Mover's Distanceを用いたハミングによる類似音楽検索手法(音楽情報検索,便利で身近な音楽情報処理)
- 符号化音声認識のための合成音声を用いた不特定話者音響モデルの適応法(音声,聴覚)
- 分散音声認識における実時間周波数特性正規化手法(音声言語)
- ニューラルネットワークと言語統計量に基づく発音辞書の自動生成
- 雑音下音声認識評価ワーキンググループ活動報告 : 認識に影響する要因の個別評価環境(Session-1 検出,第8回音声言語シンポジウム)
- ハミングによる検索機能を備えた音楽配信システムの開発
- 順位統計量を用いた話者照合のためのコホート話者選択方法(一般(ポスターセッション),第11回音声言語シンポジウム)
- サフィックス・アレイに基づく言語モデルを用いた音声認識に関する研究
- 検索質問と字幕の文字画像特徴量間の距離に基づく字幕検索手法
- スペクトルの微細構造を考慮した風雑音除去手法(電気音響,音響一般)
- 多数の話者モデル内での順位情報を用いた話者照合
- G-003 距離尺度にEarth Mover's Distanceを用いたハミングによる類似音楽検索手法(G分野:音声・音楽)
- 順位統計量を用いた話者照合のためのコホート話者選択方法 (音声)
- 話者正規化を用いた不特定話者音響モデルの学習
- 対話音声を対象とした連続音声認識システムの試作と評価
- 旅行会話タスクにおけるTARSPRECの性能評価
- リカレントニューラルネットワークを用いたセグメント境界推定
- 携帯電話型音声翻訳システムATR-MATRIX
- クライアント・サーバ型ATR-MATRIX
- 日英音声翻訳システムATR-MATRIXにおける音声認識用音響・言語モデル
- MCE/GPDを用いた自然発話音声認識における不特定話者音響モデルの改善
- クライアント・サーバ型 ATR-MATRIX
- 4E-7 ATR-MATRIX:日英双方向音声翻訳システム
- WWW画像検索システムにおける有害画像フィルタリング手法
- D-020 WWW画像検索システムにおける有害画像フィルタリング手法(D分野:データベース)
- D-030 WWW画像検索システムを用いた有害サイトURLデータベースの構築手法(D.データベース)
- テキストと画像のクロスメディア情報検索に向けた画像キーワード登録システムの開発
- 地域や年齢的な広がりを考慮した大規模な日本語音声データベース
- ICASSP'93
- 順位キューを用いた多次元データの高速近傍検索アルゴリズム
- 出現URLの類似性に着目したWWW空間からの関連語自動収集手法(抽出, 言い換え)
- 混合分布セグメントモデルのためのモデルパラメータ推定法
- 音声認識・音声合成を用いた音声途切れ補間手法
- D-019 WWW画像検索システムにおける検索質問拡張に基づくフィードバック検索(D分野:データベース)
- スペクトルの微細構造を考慮した風雑音除去手法
- 長・短期間における音声の話者内変動に関する検討
- ベクトル量子化と Earth Mover's Distance を用いた分散型話者認識手法
- ETSI標準分散音声認識フロントエンドにおける入力系の周波数特性正規化手法
- Simple PCAを用いたベクトル空間情報検索モデルの次元削減
- 統計的手法を用いた音声信号の復元手法の改良
- MPEG映像データに対するカットシーンの高速検出手法
- D-040 領域分割画像に基づく言語メタデータの自動生成手法(D.データベース)
- 話者正規化スペクトルサブバンドパラメータを用いた雑音下での音声認識
- 話者正規化スペクトルサブバンドパラメータを用いた雑音下での音声認識
- 話者正規化スペクトルサブバンドパラメータを用いた雑音下での音声認識
- 話者正規化スペクトルサブバンドパラメータを用いた雑音下での音声認識
- 日本語音声コーパスを対象としたJRTkによる音声認識
- 3次元ビタビ探索に基づく話者正規化手法
- スペクトルサブバンドセントロイドを用いた雑音下での連続音声認識
- スペクトルサブバンドセントロイドを用いた雑音下での音声認識
- スペクトルサブバンドセントロイドを用いた雑音下での音声認識
- スペクトルサブバンドセントロイドを用いた雑音下での音声認識
- 音素境界推定ネットワークを利用した音声の自動セグメンテーション
- 自由発話音声認識における音響分析の比較
- リカレントニューラルネットワークを用いた音素境界推定と音声認識への応用
- ACOUSTIC MODELS FOR SPEECH RECOGNITION : A SURVEY
- 発音ネットワークに基づく発音辞書の自動生成
- 周波数特性の変動に頑健な実時間分散音声認識手法(耐雑音)(第5回音声言語シンポジウム)
- 周波数特性の変動に頑健な実時間分散音声認識手法(第5回音声言語シンポジウム : 耐雑音)
- 周波数特性の変動に頑健な実時間分散音声認識手法(第5回音声言語シンポジウム : 耐雑音)
- 周波数特性の変動に頑健な実時間分散音声認識手法
- 日本語音声コーパスを用いた ETSI STQ DSR Advanced Front-End の評価
- 音声認識・音声合成を用いた音声途切れ補間手法
- 複数雑音モデルを用いた風雑音除去手法(合成・生成,韻律,一般)
- サポートベクターマシンによる適合性フィードバックを用いた情報検索(情報検索)
- サポートベクターマシンによる適合性フィードバックを用いた情報検索
- Non-negative Matrix Factorization を用いたベクトル空間情報検索モデルの次元削減手法
- 画像知識データベースを用いたWWW画像検索システムの開発(画像検索・映像データベース)
- HTML形式の表構造の内容解析手法とその応用に関する研究
- Non-negative Matrix Factorizationを用いた情報検索モデルの次元圧縮および検索質問拡張
- Earth Mover's Distanceを用いた分散型話者認識(合成・生成,韻律,一般)
- 大規模顔画像データベースに対する印象語による類似顔画像検索技術に関する研究
- 周波数特性の変動に頑健な分散音声認識手法
- ETSI標準分散音声認識フロントエンドを用いた音声認識実験
- PD-2-3 電話サービスのための音声認証技術
- 音素依存線形判別分析の検討
- Simple PCAを用いたベクトル空間情報検索モデルの次元削減
- Simple PCAを用いたベクトル空間情報検索モデルの次元削減
- 順位統計量を用いたテキスト独立型話者照合手法(音声,聴覚)
- Non-negative Matrix Factorizationを用いた情報検索
- 音声ドキュメント検索におけるクエリ拡張と音節認識の併用の効果 (音声)
- 音声ドキュメント検索におけるクエリ拡張と音節認識の併用の効果 (パターン認識・メディア理解)
- 音声ドキュメント検索におけるクエリ拡張と音節認識の併用の効果(音声処理,時系列パターン認識)
- 音声ドキュメント検索におけるクエリ拡張と音節認識の併用の効果(音声処理,時系列パターン認識)
- 話者認識におけるロバストネス(話者認識に関する研究の動向)
- 話者認識技術の現状と課題(オーガナイズドセッション(パネルディスカッション),音声アプリケーション,一般)