雑音DBを用いたモデル適応化HMMのSN比別マルチパスモデルによる雑音下音声認識
スポンサーリンク
概要
- 論文の詳細を見る
音声認識システムを実環境で利用する場合, その認識性能は周囲の環境雑音の混入に大きく影響を受ける.混入する雑音は多くの場合予測が困難であり, 入力される音声信号と音響モデルの間で不一致が生じ, 認識性能低下の原因となる.このことから, 変動する雑音の混入に対してロバストな音響モデルが求められている.混入する雑音の問題は, 雑音の種類が未知である問題とSN比が未知である問題の2つに分けて考えることができる.本稿ではこの問題に対し, 一つ目の雑音の種類が未知である問題に対して既存の雑音データと雑音モデルの適応化によるHMM合成法を用い, 二つ目のSN比が未知である問題に対して複数のSN比に対応した音響モデルを並列に用いる.AURORA2タスクによる評価実験の結果, 1secの適応データを用いることでSNR=5dBにおいてベースラインシステムに対して53%の認識性能改善を得た.これは従来法のHMM合成を用いた場合10secの適応データを用いた場合に匹敵する.
- 社団法人電子情報通信学会の論文
- 2001-12-13
著者
-
中村 哲
独立行政法人情報通信研究機構:(株)atr音声言語コミュニケーション研究所
-
伊田 政樹
オムロン(株)
-
中村 哲
(独)情報通信研究機構
-
中村 哲
ART音声言語コミュニケーション研究所
-
伊田 政樹
ATR音声言語コミュニケーション研究所
関連論文
- 京都観光案内対話コーパスにおける対話行為タグの設計と分析(理解)
- 同調的対話システム構築のための音声対話コーパスの構築(「ユニバーサルコミュニケーションを実現するための言語処理技術」シンポジウム)
- NICT知識創成コミュニケーション研究センターの研究と高度言語情報融合フォーラム(ALAGIN)の活動について(Web情報処理,Webとデータベースに関する技術報告)
- 雑音下音声認識評価ワーキンググループ活動報告 : 認識に影響する要因の個別評価環境(3)(SIG-SLP内組織の活動報告)
- 雑音下音声認識評価ワーキンググループ活動報告 : 認識に影響する要因の個別評価環境(2)(雑音・VAD,第9回音声言語シンポジウム)
- 雑音下音声認識評価ワーキンググループ活動報告 : 認識に影響する要因の個別評価環境 (2)(雑音・VAD,第9回音声言語シンポジウム)
- 音声翻訳システムの研究開発
- 音声認識における頑健性 : 音響分析・音響モデル,なにが課題か(企画)
- NICTにおける音声・言語研究拠点MASTARプロジェクトについて(「ユニバーサルコミュニケーションを実現するための言語処理技術」シンポジウム)
- 音声翻訳単位の推定における句読点情報の効果(ドキュメント処理・翻訳・言語獲得,第10回音声言語シンポジウム)
- 多チャンネル三次元音場再現システムの再生方式の違いによる再現性能評価
- マルチモーダル音声言語処理とその応用(マルチモーダル)
- 音声翻訳研究20年の夜明け : 受賞業績 携帯電話によるネットワーク型コーパスベース音声翻訳システムの構築(平成19年度喜安記念業績賞紹介)
- 同時通訳者の知識と韻律情報を用いた講演文章のチャンキング(チャンキング・要約)
- 2D-5 多言語音声翻訳基盤の通信インタフェースの検討と構築(音声対話・翻訳,一般セッション,人工知能と認知科学)
- ストーリへの没入感を実現するダイブイントゥザムービープロジェクト(テーマ関連/オーガナイズドセッション)
- ストーリへの没入感を実現するダイブイゥザムービープロジェクト(オーガナイズドセッション,CV/PR技術のVRへの応用)
- 5.効率的アニメ制作支援のための3次元CG技術(情報技術が支えるアートとコンテンツの世界)
- NICTにおけるユニバーサルコミュニケーションのための音声言語研究(研究動向を探るセッション)
- HMM/BN音響モデルの設計と実装(国際ワークショップ"Beyond HMM")
- 統計的対話モデルを用いたWFSTに基づく音声対話システム
- 同調的対話を実現するプロトタイプシステムの開発(対話・インタフェース・インタラクション)
- D-14-6 次世代情報家電への音声インタフェースの導入に関する検討(D-14.音声・聴覚,一般講演)
- 音声翻訳単位の推定における句読点情報の効果(ドキュメント処理・翻訳・言語獲得,第10回音声言語シンポジウム)
- 音声翻訳単位の推定における句読点情報の効果(ドキュメント処理・翻訳・言語獲得,第10回音声言語シンポジウム)
- 来場者の声の特徴を反映する映像エンタテインメントシステムのための台詞音声生成システム
- iFACe:デジタルアニメ声優体験システム
- 雑音下音声認識評価ワーキンググループ活動報告 : 認識に影響する要因の個別評価環境(2)(雑音・VAD,第9回音声言語シンポジウム)
- 個人の音声を反映する映像エンタテインメントシステム
- QAシステムのための音声入力インターフェース
- 音声認識の信頼度・複数候補を利用したWFST対話システムの評価
- 雑音下マルチモーダル音声認識評価基盤CENSREC-1-AVの構築
- 相談型対話のモデル化と対話戦略の最適化
- 音声認職の信頼度・複数候補を利用したWFST対話システムの評価
- HMM/BN音響モデルの設計と実装
- HMM/BN音響モデルの設計と実装(国際ワークショップ"Beyond HMM")
- HMM/BN音響モデルの設計と実装(国際ワークショップ"Beyond HMM")
- ハイブリッドHMM/BNモデルに基づいた調音特徴とスペクトル特徴の統合
- ハイブリッドHMM/BNモデルに基いた大語彙音声認識システム
- ハイブリッドHMM/BNモデルに基いた大語彙音声認識システム
- ベイジアンネットとジャンクションツリー分解を用いて知識を組み込んだ統計的音響モデル(第8回音声言語シンポジウム)
- ベイジアンネットとジャンクションツリー分解を用いて知識を組み込んだ統計的音響モデル(Session-5 特徴量・音響モデル,第8回音声言語シンポジウム)
- ベイジアンネットとジャンクションツリー分解を用いて知識を組み込んだ統計的音響モデル(Session-5 特徴量・音響モデル,第8回音声言語シンポジウム)
- マルチモーダル音声認識のための顔検出
- マルチモーダル音声認識のための顔検出
- 実騒音環境におけるハンズフリー単語音声認識
- 調音運動ダイナミクスの音声認識への応用(聴覚・音声/一般)
- F0パターンの自動推定と目標点の抽出(Session-4 一般(ポスターセッション),第8回音声言語シンポジウム)
- F0パターンの自動推定と目標点の抽出(Session-4 一般(ポスターセッション),第8回音声言語シンポジウム)
- 新映像技術「ダイブイントゥザムービー」
- 音場の局所化技術を応用した指向性スピーカシステムの試作と評価
- DARPA SPINEタクスのためのATR音声認識システム
- 音声翻訳技術の動向
- AURORA-2 タスク雑音環境下音声認識における雑音にロバストな特徴抽出法とモデル補償
- 新映像技術「ダイブイントゥザムービー」
- 据置き型情報提供端末向き雑音処理を用いた音声入力インタフェース
- 実騒音環境におけるマイクロホンアレーを用いた単語音声認識
- K-079 情報家電操作のためのマルチモーダル・インタフェースの可能性(K.ヒューマンコミュニケーション&インタラクション)
- G-004 次世代情報家電操作のための音声コマンド設計に関する主観評価実験(G.音声・音楽)
- 雑音GMMの適応化とSN比別マルチパスモデルを用いたHMM合成による高速な雑音環境適応化
- 雑音DBを用いたモデル適応化HMMのSN比別マルチパスモデルによる雑音下音声認識
- 雑音DBを用いたモデル適応化HMMのSN比別マルチパスモデルによる雑音下音声認識
- 雑音DBを用いたモデル適応化HMMのSN比別マルチパスモデルによる雑音下音声認識
- 雑音DBとモデル適応化を用いたHMM合成法における雑音変動耐性の評価
- HMM合成を用いた雑音環境下音声認識における環境音GMMの適応化
- HMM合成による環境音重畳音声の認識
- 言葉の壁を越える音声翻訳技術
- Web時代の音声・言語技術
- HMM合成を用いたバイモーダル音声認識