雑音環境下における静的・動的情報を用いた音響モデル適応(雑音下音声認識,認識,理解,対話,一般)
スポンサーリンク
概要
- 論文の詳細を見る
本稿では,雑音環境下・実環境下での音声認識性能の改善を目的に,複数のストリームを用いた音響モデル適応手法を提案する.はじめに,静的成分と動的成分(Δ成分とΔΔ成分)などのように,音響特徴量を複数のストリームに分割する.次に,予備的に認識を行い,その結果によりそれぞれのストリームの並び替えを行う.モデル適応を行う際には,最も性能の高かったストリームでは,そのストリームの情報のみを用いてモデルパラメータの適応を行う.それ以外のストリームにおいては,当該ストリームより性能の高かったストリームもあわせて用いることで,モデルパラメータの適応を行う.提案手法の有効性を確認するため,コーパスCENSREC-1を用いて認識実験および適応実験を行った.予備実験結果では,音響特徴量の動的成分が静的成分と比べて雑音に対する頑健性を有することが確かめられた.適応・認識実験では,提案する適応手法は,従来の音響特徴量やストリームをそのまま用いる方法と比較して,最も高い認識性能を得ることができ,手法の有効性が確かめられた.
- 2012-07-12
著者
関連論文
- マルチモーダル情報処理の研究動向(マルチモーダル)
- 加速度情報を用いた日常行動認識について(デモ展示・ポスター講演,ネットワークプロセッサ,通信のための信号処理,無線LAN/PAN,一般)
- 雑音下音声認識評価ワーキンググループ活動報告 : 認識に影響する要因の個別評価環境(3)(SIG-SLP内組織の活動報告)
- 雑音下音声認識評価ワーキンググループ活動報告 : 認識に影響する要因の個別評価環境(2)(雑音・VAD,第9回音声言語シンポジウム)
- 雑音下音声認識評価ワーキンググループ活動報告 : 認識に影響する要因の個別評価環境 (2)(雑音・VAD,第9回音声言語シンポジウム)
- 雑音下音声認識評価ワーキンググループ活動報告 : 認識に影響する要因の個別評価環境(第8回音声言語シンポジウム)
- 雑音下音声認識評価ワーキンググループ活動報告 : 認識に影響する要因の個別評価環境(Session-1 検出,第8回音声言語シンポジウム)
- 救急災害領域における情報支援システム(わが国における救急・災害医療の将来)
- ブースティングによるマルチモーダル音声区間検出の結果統合 (音声)
- M-013 3軸加速度センサを用いた隠れマルコフモデルによる人間の行動識別(ユビキタス・モバイルコンピューティング,一般論文)
- 加速度情報を用いた日常行動認識について(デモ展示・ポスター講演,ネットワークプロセッサ,通信のための信号処理,無線LAN/PAN,一般)
- 加速度情報を用いた日常行動認識について(デモ展示・ポスター講演,ネットワークプロセッサ,通信のための信号処理,無線LAN/PAN,一般)
- 画像特徴量の正規化によるマルチモーダル音声認識の改善(マルチモーダル)
- マルチモーダル音声認識における音声と画像の同期に関する調査(マルチモーダル)
- E-007 Wikipediaのカテゴリを利用したWeb検索結果のフィルタリングの検討(自然言語・音声・音楽,一般論文)
- 2ZD-5 統計的音声区間検出法を用いた加速度センサによる人間の動作検出(動作認識・大画面,学生セッション,インターフェース)
- 音声と画像のconfusion networkを用いたマルチモーダル音声認識
- SOSとマイクロフォンアレイの統合による会議記録システムの開発
- デジタルペン文字認識システムを用いた在宅看護支援における誤認識自動訂正機能(一般,テキスト情報の要約と掲示に関わる自然言語処理シンポジウム及び一般)
- 雑音下音声認識評価ワーキンググループ活動報告 : 認識に影響する要因の個別評価環境(2)(雑音・VAD,第9回音声言語シンポジウム)
- ブースティングによるマルチモーダル音声区間検出の結果統合(音声・言語・音響教育,一般)
- 雑音下マルチモーダル音声認識評価基盤CENSREC-1-AVの構築
- 雑音下音声認識評価ワーキンググループ活動報告 : 認識に影響する要因の個別評価環境(Session-1 検出,第8回音声言語シンポジウム)
- 複数モデルの統合によるLDAトピックモデルの高精度化とテキスト入力支援への応用
- ARHMMに基づいた音声分析手法と歌声認識による評価(聴覚・音声及び一般)
- RWC計画における音声対話データベースの構築
- マルチモーダル音声区間検出を用いたマルチモーダル音声認識の検討(一般セッション,クロスモーダル)
- マルチモーダル音声区間検出を用いたマルチモーダル音声認識の検討(一般セッション,クロスモーダル)
- マルチモーダル音声区間検出を用いたマルチモーダル音声認識の検討(一般セッション,クロスモーダル)
- マルチモーダル音声区間検出を用いたマルチモーダル音声認識の検討(一般セッション,クロスモーダル)
- マルチモーダル医療支援システムの開発
- E-021 映像コンテンツ理解支援のためのキーワード表示方式の検討(自然言語・音声・音楽,一般論文)
- E-020 見出しにおける文の成分に関する調査(自然言語・音声・音楽,一般論文)
- D-024 レシピの自動生成に向けた調味料推定の評価(データベース,一般論文)
- E-047 会議録自動作成システムに向けた話者識別技術の検討(自然言語・音声・音楽,一般論文)
- クラスタリングによるHMM間の距離尺度の検討
- A Speech Database and Acoustic-Phonetic Knowledge Base for Speech Recognition (自然言語対話システムに関する研究)
- 日本音響学会研究用連続音声データベース (<小特集>出揃った音声データベース)
- 電総研の研究用音声データベース (<小特集>出揃った音声データベース)
- 連続DPによる連続単語認識実験とその考察
- 音声・画像のモダリティ間の相互作用に着目した音声認識のモデル適応 (音声)
- キーワード抽出による映像コンテンツの理解支援の検討
- 音声・画像のモダリティ間の相互作用に着目した音声認識のモデル適応(音声・言語・音響教育,一般)
- A-1 4kW級マイクロガスタービンの応用研究 : 小型車両開発(マイクロガスタービン利用技術,一般講演)
- 肺音の情報処理と応用 (特集 生体・医用における先端画像処理技術)
- 雑音環境下にける静的・動的情報を用いた音響モデル適応 (音声)
- GIF-SP : 汎用・識別的な特徴量を用いた音声認識性能の改善(耐雑音処理,第13回音声言語シンポジウム)
- GIF-SP : 汎用・識別的な特徴量を用いた音声認識性能の改善(耐雑音処理,第13回音声言語シンポジウム)
- スパース表現を用いた実環境における喀痰検出(ポスター講演,ポスターショートオーラル,時系列パターン認識)
- スパース表現を用いた実環境における喀痰検出(ポスター講演,ポスターショートオーラル,時系列パターン認識)
- 肺音の情報処理と応用
- GIF-SP : 汎用・識別的な特徴量を用いた音声認識性能の改善
- スパース表現を用いた実環境における喀痰検出
- K-062 日本食レストラン産業におけるマルチセンサとPOSデータに基づくサービスオペレーション推定(人間支援のためのセンシングとマルチメディア,K分野:教育工学・福祉工学・マルチメディア応用)
- E-026 Noise Robust Voice Conversion using GA-based Informative Feature
- E-027 汎用・識別的特徴量を用いた音声区間検出(音声情報処理,E分野:自然言語・音声・音楽)
- 接客時間推定に向けた従業員の位置・音声データによる発話クラスタリング
- スパース表現を用いた実環境における喀痰検出
- 雑音環境下における静的・動的情報を用いた音響モデル適応(雑音下音声認識,認識,理解,対話,一般)
- RO-008 検索新聞 : 新聞形式型検索情報提示システムにおけるマイクロブログを用いたユーザ適応(情報検索,O分野:情報システム)
- 高精度なマルチモーダル音声認識の実現に向けた取り組み(オーガナイズドセッション)