周波数特性の変動に頑健な実時間分散音声認識手法(第5回音声言語シンポジウム : 耐雑音)
スポンサーリンク
概要
- 論文の詳細を見る
携帯電話やPDAなどの携帯端末の音声認識手法として分散音声認識手法(DSR: Distributed Speech Recognition)が近年提案された。DSRでは、携帯端末とサーバ間で伝送するデータ形式等を共通化する必要があり、現在、ETSIにおいて標準化が進められている。標準化の一環として、2000年4月にはETSI標準DSRフロントエンド、.2002年10月には雑音対策手法などを追加したETSI Advanced DSRフロントエンドが勧告された。携帯端末は多種多様であり、使用される入力デバイスの周波数特性には差異が生じる。この差異は特徴パラメータ圧縮時のベクトル量子化歪みを増加させ、音声認識性能劣化の要因の一つとなる。そこで、本稿では、周波数特性を正規化する手法を提案する。提案手法は、各フレーム毎に複数の参照ケプストラムと特徴パラメータを比較し、参照ケプストラムに入力ケプストラムが近付くように周波数特性を正規化する。実際には、入力発声の音素列を推定し、各音素の特徴パラメータの平均が音響モデル学習時の特徴パラメータの平均と一致するように入力特徴パラメータを平行移動させ、周波数特性を正規化する。音声認識実験結果より、提案手法はETSI Advanced DSRフロントエンドで使用されているBlind Equalization手法より高い認識性能を示した。特に、提案手法はMIRSフィルタ条件下でETSI Advanced DSRフロントエンドの単語誤り率を17.88%削減(16.67%→13.69%)することが可能であった。
- 社団法人電子情報通信学会の論文
- 2003-12-11
著者
-
黒岩 眞吾
徳島大学工学部
-
北 研二
徳島大学高度情報化基盤センター
-
北 研二
徳島大
-
柘植 覚
徳島大学工学部
-
黒岩 眞吾
(株)ケイディディ研究所
-
黒岩 眞吾
徳島大学工学部 電気電子工学科
-
原 一眞
徳島大学大学院工学研究科
-
柘植 覚
徳島大学大学院ソシオテクノサイエンス研究部情報ソリューション部門
-
北 研二
徳島大学
-
Tsuge Satoru
Atr Interpreting Telecommunications Research Laboratories
-
原 一眞
徳島大学工学部
関連論文
- 徳島大学キャンパスネットワークシステムの更新について
- 距離索引VP-treeにおける解絞込みの一改良手法(マルチメディアデータベース,データ工学論文)
- 実用会話システムにおける対話型案内コンテンツの構築
- 実用会話システムにおける対話型案内コンテンツの構築(対話)
- 雑音下音声認識評価ワーキンググループ活動報告 : 認識に影響する要因の個別評価環境(3)(SIG-SLP内組織の活動報告)
- 雑音下音声認識評価ワーキンググループ活動報告 : 認識に影響する要因の個別評価環境(2)(雑音・VAD,第9回音声言語シンポジウム)
- 雑音下音声認識評価ワーキンググループ活動報告 : 認識に影響する要因の個別評価環境 (2)(雑音・VAD,第9回音声言語シンポジウム)
- 雑音下音声認識評価ワーキンググループ活動報告 : 認識に影響する要因の個別評価環境(第8回音声言語シンポジウム)
- 雑音下音声認識評価ワーキンググループ活動報告 : 認識に影響する要因の個別評価環境(Session-1 検出,第8回音声言語シンポジウム)
- 大規模話者骨導音声データベースを用いたテキスト独立型話者照合実験(一般(ポスターセッション),第9回音声言語シンポジウム)
- 類似画像検索技術を用いた商品推薦システム--『SUDACHI』の開発とその応用
- CENSREC-1-C : 雑音下音声区間検出評価基盤の構築
- SLP雑音下音声認識評価WG活動報告 : 評価用データと評価手法について(Session-6 スペシャルセッション: 共通コーパスを利用した耐雑音技術評価, 第7回音声言語シンポジウム)
- 実走行車内音声認識の評価データベースCENSREC-3とその共通評価ベースライン
- 実走行車内単語音声データベースCENSREC-3と共通評価環境の構築
- CENSREC-3 : 実走行車内単語音声データベースと評価環境の構築(ポスターセッション)(第6回音声言語シンポジウム)
- 実環境下音声認識の評価の標準化とその動向(音声・言語における標準化動向)(第6回音声言語シンポジウム)
- AURORA-2Jを用いたETSI STQ Aurora WI008 Advanced DSR Frontendの評価(ポスターセッション)(第5回音声言語シンポジウム)
- AURORA-2Jを用いたETSI STQ Aurora WI008 Advanced DSR Frontendの評価(第5回音声言語シンポジウム : ポスターセッション)
- 感情生起事象文型パターンに基づいた会話文からの感情推定手法
- 感情計測システムについて(福祉と言語処理, 一般)
- 感情計測システムについて(福祉と言語処理,一般)
- WWW画像検索システムを用いた関連語の自動収集手法(検索)
- 講義映像配信システムにおける講義映像と資料の対応
- フィルタバンク特徴量とEarth Mover's Distanceを用いた音楽検索
- 教師あり学習によるベクトル空間情報検索モデルの精度改善
- 順位統計量を用いた話者照合のためのコホート話者選択方法
- Earth Mover's Distanceを用いたハミングによる類似音楽検索手法(音楽情報検索,便利で身近な音楽情報処理)
- 順位統計量を用いた話者照合のためのコホート話者選択方法
- 符号化音声認識のための合成音声を用いた不特定話者音響モデルの適応法(音声,聴覚)
- 分散音声認識における実時間周波数特性正規化手法(音声言語)
- ハミングによる検索機能を備えた音楽配信システムの開発
- 順位統計量を用いた話者照合のためのコホート話者選択方法(一般(ポスターセッション),第11回音声言語シンポジウム)
- サフィックス・アレイに基づく言語モデルを用いた音声認識に関する研究
- 検索質問と字幕の文字画像特徴量間の距離に基づく字幕検索手法
- G-003 距離尺度にEarth Mover's Distanceを用いたハミングによる類似音楽検索手法(G分野:音声・音楽)
- 適応エコーキャンセラにおけるステップゲイン制御法(信号処理,スペクトル拡散,及び一般)
- 適応エコーキャンセラにおけるステップゲイン制御法(信号処理,スペクトル拡散,及び一般)
- 13-105 学生自主プロジェクト活動実態に関する考察((17)工学教育システムの個性化・活性化-II)
- WWW画像検索システムにおける有害画像フィルタリング手法
- D-020 WWW画像検索システムにおける有害画像フィルタリング手法(D分野:データベース)
- D-030 WWW画像検索システムを用いた有害サイトURLデータベースの構築手法(D.データベース)
- 距離索引VP-treeにおける解絞り込みの一改良法(基盤・要素技術)(セマンティックウェブと自然言語処理その他一般)
- 距離索引VP-treeにおける解絞り込みの一改良法
- ベクトル空間モデルに基づく特定領域向け中国語質問応答システムの構築
- 感情計測システムについて(福祉と言語処理, 一般)
- 質問応答システムにおける質問文内の漢字文字列に対する用語特定手法(「ユニバーサルコミュニケーションを実現するための言語処理技術」シンポジウム)
- URLの類似性を考慮したWWW空間からの関連語収集手法(「ユニバーサルコミュニケーションを実現するための言語処理技術」シンポジウム)
- 質問応答システムにおける質問文内の用語特定(思考と知識検索・獲得,一般)
- Earth Mover's Distance の高速検索ライブラリ fastEMD の開発
- 字幕付き映像データからの字幕領域の検出手法
- WWW検索エンジンを用いた質問文内の用語特定手法
- WWW検索エンジンを用いた質問文内の用語特定手法(QA・Web検索)
- 順位キューを用いた多次元データの高速近傍検索アルゴリズム
- 出現URLの類似性に着目したWWW空間からの関連語自動収集手法(抽出, 言い換え)
- 音声認識・音声合成を用いた音声途切れ補間手法
- D-019 WWW画像検索システムにおける検索質問拡張に基づくフィードバック検索(D分野:データベース)
- 長・短期間における音声の話者内変動に関する検討
- ETSI標準分散音声認識フロントエンドにおける入力系の周波数特性正規化手法
- 統計的手法を用いた音声信号の復元手法の改良
- MPEG映像データに対するカットシーンの高速検出手法
- D-040 領域分割画像に基づく言語メタデータの自動生成手法(D.データベース)
- 機械翻訳における使役表現の翻訳規則について(機械翻訳)
- 顔特徴を用いた表情の認識(福祉と言語処理, 一般)
- 顔特徴を用いた表情の認識(福祉と言語処理,一般)
- 自然言語処理技術を用いた中学理科教授学習システム(福祉と言語処理, 一般)
- 自然言語処理技術を用いた中学理科教授学習システム(福祉と言語処理,一般)
- 自然言語処理技術を用いた中学理科教授学習システム(福祉と言語処理, 一般)
- ECサイトにおける画像の類似性測定 : 『SUDACHI』の開発と商品推薦エンジンへの応用(特別セッション 好みの計量)
- 多次元データの高速近傍検索アルゴリズム(基盤・要素技術)(セマンティックウェブと自然言語処理その他一般)
- 1次元自己組織化マップを用いた高次元データの高速近傍検索
- 1次元自己組織化マップを用いた高次元データの高速近傍検索
- 周波数特性の変動に頑健な実時間分散音声認識手法(耐雑音)(第5回音声言語シンポジウム)
- 周波数特性の変動に頑健な実時間分散音声認識手法(第5回音声言語シンポジウム : 耐雑音)
- 周波数特性の変動に頑健な実時間分散音声認識手法(第5回音声言語シンポジウム : 耐雑音)
- 周波数特性の変動に頑健な実時間分散音声認識手法
- 日本語音声コーパスを用いた ETSI STQ DSR Advanced Front-End の評価
- オーディオ指紋検索に適した高速なハミング空間検索
- 音声認識・音声合成を用いた音声途切れ補間手法
- 複数雑音モデルを用いた風雑音除去手法(合成・生成,韻律,一般)
- サポートベクターマシンによる適合性フィードバックを用いた情報検索(情報検索)
- サポートベクターマシンによる適合性フィードバックを用いた情報検索
- 混合ガウス分布モデルを用いた画像検索
- Non-negative Matrix Factorization を用いたベクトル空間情報検索モデルの次元削減手法
- 画像知識データベースを用いたWWW画像検索システムの開発(画像検索・映像データベース)
- 1次元自己組織化マップを用いた高次元データの高速近傍検索
- Non-negative Matrix Factorizationを用いた情報検索モデルの次元圧縮および検索質問拡張
- Earth Mover's Distanceを用いた分散型話者認識(合成・生成,韻律,一般)
- 大規模顔画像データベースに対する印象語による類似顔画像検索技術に関する研究
- 周波数特性の変動に頑健な分散音声認識手法
- ETSI標準分散音声認識フロントエンドを用いた音声認識実験
- PD-2-3 電話サービスのための音声認証技術
- 音素依存線形判別分析の検討
- Simple PCAを用いたベクトル空間情報検索モデルの次元削減
- Non-negative Matrix Factorizationを用いた情報検索
- 顔特徴を用いた表情の認識(福祉と言語処理, 一般)
- クラスタリングに基づくGMM学習法による話者モデルの構築(話者認識・照合,認識,理解,対話,一般)
- クラスタリングに基づくGMM学習法による話者モデルの構築
- 音声ドキュメント検索におけるクエリ拡張と音節認識の併用の効果(音声処理,時系列パターン認識)
- 音声ドキュメント検索におけるクエリ拡張と音節認識の併用の効果(音声処理,時系列パターン認識)