話者正規化スペクトルサブバンドパラメータを用いた雑音下での音声認識
スポンサーリンク
概要
- 論文の詳細を見る
本稿では、雑音下での音声認識における補助的特徴量として、話者正規化SSC(spectral subband centroids)を提案する。SSCは、サブバンド内に含まれる音声パワースペクトルのセントロイド周波数として定義される。この特徴量は、雑音環境下においても比較的変動の少ない、スペクトルのピーク(フォルマント)が示す周波数をおおまかにとらえるため、雑音に対してロバストな特徴量であると考えられる。SSCはスペクトルのピークが示す周波数に依存する特徴量のため、スペクトル形状の異なる複数話者から求めたSSCの分布は広がり、異なる音素の分布間に大きな重なりが生じると考えられる。そこで、この分布の重なりを低減するため、話者正規化手法をSSCの計算に取り入れた話者正規化SSCを提案する。自由発話音声を用いた連続音声認識実験により、話者正規化SSCを補助的特徴量として用いた場合、20.3%(SNR=15dB)の誤り改善率を得ることができた。また、話者正規化手法を用いないSSCとの比較においても、14.3%(SNR=15dB)の誤り改善率を得ることができた。
- 社団法人電子情報通信学会の論文
- 1998-12-10
著者
-
シンガー ハラルド
ATR Interpreting Telephony Research Laboratories
-
深田 俊明
ATR音声翻訳通信研究所
-
柘植 覚
徳島大学大学院ソシオテクノサイエンス研究部情報ソリューション部門
-
シンガー ハラルド
ATR音声翻訳通信研究所
-
ハラルド シンガー
Atr音声翻訳通信研究所
-
シンガー ハラルド
奈良先端科学技術大学院大学
-
Singer H
Atr Interpreting Telephony Research Lab.
-
深田 俊明
Atr Interpreting Telecommunications Research Laboratories
-
柘植 覚
ATR音声翻訳通信研究所
関連論文
- 距離索引VP-treeにおける解絞込みの一改良手法(マルチメディアデータベース,データ工学論文)
- 雑音下音声認識評価ワーキンググループ活動報告 : 認識に影響する要因の個別評価環境(3)(SIG-SLP内組織の活動報告)
- 雑音下音声認識評価ワーキンググループ活動報告 : 認識に影響する要因の個別評価環境(2)(雑音・VAD,第9回音声言語シンポジウム)
- 雑音下音声認識評価ワーキンググループ活動報告 : 認識に影響する要因の個別評価環境 (2)(雑音・VAD,第9回音声言語シンポジウム)
- 雑音下音声認識評価ワーキンググループ活動報告 : 認識に影響する要因の個別評価環境(第8回音声言語シンポジウム)
- 雑音下音声認識評価ワーキンググループ活動報告 : 認識に影響する要因の個別評価環境(Session-1 検出,第8回音声言語シンポジウム)
- 大規模話者骨導音声データベースを用いたテキスト独立型話者照合実験(一般(ポスターセッション),第9回音声言語シンポジウム)
- CENSREC-1-C : 雑音下音声区間検出評価基盤の構築
- ピッチ周波数依存音素モデルによるHMM音声認識
- 隠れマルコフ網と一般化LR構文解析を統合した連続音声認識
- 3)ピッチとスペクトルの相関を用いたHMM音素認識(視聴覚技術研究会)
- ピッチとスペクトルの相関を用いたHMM音素認識
- WWW画像検索システムを用いた関連語の自動収集手法(検索)
- 大規模話者骨導音声データベースを用いたテキスト独立型話者照合実験(一般(ポスターセッション),第9回音声言語シンポジウム)
- 大規模話者骨導音声データベースを用いたテキスト独立型話者照合実験(一般(ポスターセッション),第9回音声言語シンポジウム)
- 雑音下音声認識評価ワーキンググループ活動報告 : 認識に影響する要因の個別評価環境(2)(雑音・VAD,第9回音声言語シンポジウム)
- 雑音下マルチモーダル音声認識評価基盤CENSREC-1-AVの構築
- 順位統計量を用いた話者照合のためのコホート話者選択方法
- Earth Mover's Distanceを用いたハミングによる類似音楽検索手法(音楽情報検索,便利で身近な音楽情報処理)
- 符号化音声認識のための合成音声を用いた不特定話者音響モデルの適応法(音声,聴覚)
- 分散音声認識における実時間周波数特性正規化手法(音声言語)
- ニューラルネットワークと言語統計量に基づく発音辞書の自動生成
- 雑音下音声認識評価ワーキンググループ活動報告 : 認識に影響する要因の個別評価環境(Session-1 検出,第8回音声言語シンポジウム)
- ハミングによる検索機能を備えた音楽配信システムの開発
- 順位統計量を用いた話者照合のためのコホート話者選択方法(一般(ポスターセッション),第11回音声言語シンポジウム)
- サフィックス・アレイに基づく言語モデルを用いた音声認識に関する研究
- 検索質問と字幕の文字画像特徴量間の距離に基づく字幕検索手法
- スペクトルの微細構造を考慮した風雑音除去手法(電気音響,音響一般)
- 多数の話者モデル内での順位情報を用いた話者照合
- G-003 距離尺度にEarth Mover's Distanceを用いたハミングによる類似音楽検索手法(G分野:音声・音楽)
- 順位統計量を用いた話者照合のためのコホート話者選択方法 (音声)
- 話者正規化を用いた不特定話者音響モデルの学習
- 対話音声を対象とした連続音声認識システムの試作と評価
- 旅行会話タスクにおけるTARSPRECの性能評価
- リカレントニューラルネットワークを用いたセグメント境界推定
- 携帯電話型音声翻訳システムATR-MATRIX
- クライアント・サーバ型ATR-MATRIX
- 日英音声翻訳システムATR-MATRIXにおける音声認識用音響・言語モデル
- MCE/GPDを用いた自然発話音声認識における不特定話者音響モデルの改善
- クライアント・サーバ型 ATR-MATRIX
- 4E-7 ATR-MATRIX:日英双方向音声翻訳システム
- WWW画像検索システムにおける有害画像フィルタリング手法
- D-020 WWW画像検索システムにおける有害画像フィルタリング手法(D分野:データベース)
- D-030 WWW画像検索システムを用いた有害サイトURLデータベースの構築手法(D.データベース)
- テキストと画像のクロスメディア情報検索に向けた画像キーワード登録システムの開発
- 地域や年齢的な広がりを考慮した大規模な日本語音声データベース
- 大規模な日本語音声データによる音響モデルの分析
- 順位キューを用いた多次元データの高速近傍検索アルゴリズム
- 出現URLの類似性に着目したWWW空間からの関連語自動収集手法(抽出, 言い換え)
- 混合分布セグメントモデルのためのモデルパラメータ推定法
- 音声認識・音声合成を用いた音声途切れ補間手法
- D-019 WWW画像検索システムにおける検索質問拡張に基づくフィードバック検索(D分野:データベース)
- スペクトルの微細構造を考慮した風雑音除去手法
- 長・短期間における音声の話者内変動に関する検討
- ベクトル量子化と Earth Mover's Distance を用いた分散型話者認識手法
- ETSI標準分散音声認識フロントエンドにおける入力系の周波数特性正規化手法
- Simple PCAを用いたベクトル空間情報検索モデルの次元削減
- 統計的手法を用いた音声信号の復元手法の改良
- MPEG映像データに対するカットシーンの高速検出手法
- D-040 領域分割画像に基づく言語メタデータの自動生成手法(D.データベース)
- 話者正規化スペクトルサブバンドパラメータを用いた雑音下での音声認識
- 話者正規化スペクトルサブバンドパラメータを用いた雑音下での音声認識
- 話者正規化スペクトルサブバンドパラメータを用いた雑音下での音声認識
- 話者正規化スペクトルサブバンドパラメータを用いた雑音下での音声認識
- 日本語音声コーパスを対象としたJRTkによる音声認識
- 3次元ビタビ探索に基づく話者正規化手法
- スペクトルサブバンドセントロイドを用いた雑音下での連続音声認識
- スペクトルサブバンドセントロイドを用いた雑音下での音声認識
- スペクトルサブバンドセントロイドを用いた雑音下での音声認識
- スペクトルサブバンドセントロイドを用いた雑音下での音声認識
- 音素境界推定ネットワークを利用した音声の自動セグメンテーション
- 自由発話音声認識における音響分析の比較
- リカレントニューラルネットワークを用いた音素境界推定と音声認識への応用
- ACOUSTIC MODELS FOR SPEECH RECOGNITION : A SURVEY
- 発音ネットワークに基づく発音辞書の自動生成
- SCALAR QUANTIZATION OF CEPSTRAL PARAMETERS FOR LOW BANDWIDTH CLIENT-SERVER SPEECH RECOGNITION SYSTEMS
- 周波数特性の変動に頑健な実時間分散音声認識手法(耐雑音)(第5回音声言語シンポジウム)
- 周波数特性の変動に頑健な実時間分散音声認識手法(第5回音声言語シンポジウム : 耐雑音)
- 周波数特性の変動に頑健な実時間分散音声認識手法(第5回音声言語シンポジウム : 耐雑音)
- 周波数特性の変動に頑健な実時間分散音声認識手法
- 日本語音声コーパスを用いた ETSI STQ DSR Advanced Front-End の評価
- 音声認識・音声合成を用いた音声途切れ補間手法
- 母音および無音のHMMを用いた音声始端検出法
- 音響モデルの構造決定のための統一的な枠組 : 最尤推定による逐次状態分割法と質問に基づく決定木生成法
- PARALLEL JAPANESE/ENGLISH SPEECH RECOGNITION IN ATRSPREC
- DISTANCE-RELATED UNIT ASSOCIATION MAXIMUM ENTROPY LANGUAGE MODELING
- 日英音声翻訳システム「ATR-MATRIX」における音声認識部分の構造と制御方法
- 複数雑音モデルを用いた風雑音除去手法(合成・生成,韻律,一般)
- サポートベクターマシンによる適合性フィードバックを用いた情報検索(情報検索)
- サポートベクターマシンによる適合性フィードバックを用いた情報検索
- Non-negative Matrix Factorization を用いたベクトル空間情報検索モデルの次元削減手法
- 画像知識データベースを用いたWWW画像検索システムの開発(画像検索・映像データベース)
- HTML形式の表構造の内容解析手法とその応用に関する研究
- Non-negative Matrix Factorizationを用いた情報検索モデルの次元圧縮および検索質問拡張
- Earth Mover's Distanceを用いた分散型話者認識(合成・生成,韻律,一般)
- 大規模顔画像データベースに対する印象語による類似顔画像検索技術に関する研究
- 周波数特性の変動に頑健な分散音声認識手法
- ETSI標準分散音声認識フロントエンドを用いた音声認識実験
- PD-2-3 電話サービスのための音声認証技術
- 音素依存線形判別分析の検討