音声・画像のモダリティ間の相互作用に着目した音声認識のモデル適応(音声・言語・音響教育,一般)
スポンサーリンク
概要
- 論文の詳細を見る
本論文は,マルチモーダル音声認識におけるMLLR法を用いたモデル適応において,音響情報と画像情報がそれぞれ異なるモダリティに与える影響(モダリティ間の効果)について調査するものである.マルチモーダル音声認識のモデル適応ではモダリティ間の情報が音声認識の精度向上に有効に働いている可能性がある.そこで,モダリティ間の効果が有効であるか否か調査を行った.具体的には,MLLR法の変換行列にいくつかの変化を加えてモデル適応を行い認識精度を比較した.実験にはマルチモーダル音声認識コーパスに音響雑音を加えたデータを使用した.実験の結果から,モダリティ間の情報の有効性が確認された.
- 2011-06-16
著者
-
田村 哲嗣
岐阜大学工学部
-
田村 哲嗣
岐阜大学大学工学部 応用情報学科
-
速水 悟
岐阜大学大学工学部 応用情報学科
-
田村 哲嗣
岐阜大学大学院工学研究科応用情報学専攻
-
速水 悟
岐阜大学大学院工学研究科応用情報学専攻
-
大西 正真
岐阜大学大学院工学研究科応用情報学専攻
-
田村 哲嗣
岐阜大
関連論文
- マルチモーダル情報処理の研究動向(マルチモーダル)
- 加速度情報を用いた日常行動認識について(デモ展示・ポスター講演,ネットワークプロセッサ,通信のための信号処理,無線LAN/PAN,一般)
- 雑音下音声認識評価ワーキンググループ活動報告 : 認識に影響する要因の個別評価環境(3)(SIG-SLP内組織の活動報告)
- 雑音下音声認識評価ワーキンググループ活動報告 : 認識に影響する要因の個別評価環境(2)(雑音・VAD,第9回音声言語シンポジウム)
- 雑音下音声認識評価ワーキンググループ活動報告 : 認識に影響する要因の個別評価環境 (2)(雑音・VAD,第9回音声言語シンポジウム)
- 雑音下音声認識評価ワーキンググループ活動報告 : 認識に影響する要因の個別評価環境(第8回音声言語シンポジウム)
- 雑音下音声認識評価ワーキンググループ活動報告 : 認識に影響する要因の個別評価環境(Session-1 検出,第8回音声言語シンポジウム)
- 救急災害領域における情報支援システム(わが国における救急・災害医療の将来)
- ブースティングによるマルチモーダル音声区間検出の結果統合 (音声)
- M-013 3軸加速度センサを用いた隠れマルコフモデルによる人間の行動識別(ユビキタス・モバイルコンピューティング,一般論文)
- 加速度情報を用いた日常行動認識について(デモ展示・ポスター講演,ネットワークプロセッサ,通信のための信号処理,無線LAN/PAN,一般)
- 加速度情報を用いた日常行動認識について(デモ展示・ポスター講演,ネットワークプロセッサ,通信のための信号処理,無線LAN/PAN,一般)
- 画像特徴量の正規化によるマルチモーダル音声認識の改善(マルチモーダル)
- マルチモーダル音声認識における音声と画像の同期に関する調査(マルチモーダル)
- E-007 Wikipediaのカテゴリを利用したWeb検索結果のフィルタリングの検討(自然言語・音声・音楽,一般論文)
- 2ZD-5 統計的音声区間検出法を用いた加速度センサによる人間の動作検出(動作認識・大画面,学生セッション,インターフェース)
- 音声と画像のconfusion networkを用いたマルチモーダル音声認識
- SOSとマイクロフォンアレイの統合による会議記録システムの開発
- デジタルペン文字認識システムを用いた在宅看護支援における誤認識自動訂正機能(一般,テキスト情報の要約と掲示に関わる自然言語処理シンポジウム及び一般)
- 雑音下音声認識評価ワーキンググループ活動報告 : 認識に影響する要因の個別評価環境(2)(雑音・VAD,第9回音声言語シンポジウム)
- ブースティングによるマルチモーダル音声区間検出の結果統合(音声・言語・音響教育,一般)
- 雑音下マルチモーダル音声認識評価基盤CENSREC-1-AVの構築
- 雑音下音声認識評価ワーキンググループ活動報告 : 認識に影響する要因の個別評価環境(Session-1 検出,第8回音声言語シンポジウム)
- 組み込み中核人材プロジェクトにおける大学等での取り組み
- マルチモーダル音声区間検出を用いたマルチモーダル音声認識の検討(一般セッション,クロスモーダル)
- マルチモーダル音声区間検出を用いたマルチモーダル音声認識の検討(一般セッション,クロスモーダル)
- マルチモーダル音声区間検出を用いたマルチモーダル音声認識の検討(一般セッション,クロスモーダル)
- マルチモーダル音声区間検出を用いたマルチモーダル音声認識の検討(一般セッション,クロスモーダル)
- マルチモーダル医療支援システムの開発
- E-021 映像コンテンツ理解支援のためのキーワード表示方式の検討(自然言語・音声・音楽,一般論文)
- E-020 見出しにおける文の成分に関する調査(自然言語・音声・音楽,一般論文)
- D-024 レシピの自動生成に向けた調味料推定の評価(データベース,一般論文)
- E-047 会議録自動作成システムに向けた話者識別技術の検討(自然言語・音声・音楽,一般論文)
- 音声・画像のモダリティ間の相互作用に着目した音声認識のモデル適応 (音声)
- キーワード抽出による映像コンテンツの理解支援の検討
- 音声・画像のモダリティ間の相互作用に着目した音声認識のモデル適応(音声・言語・音響教育,一般)
- A-1 4kW級マイクロガスタービンの応用研究 : 小型車両開発(マイクロガスタービン利用技術,一般講演)
- 肺音の情報処理と応用 (特集 生体・医用における先端画像処理技術)
- 雑音環境下にける静的・動的情報を用いた音響モデル適応 (音声)
- GIF-SP : 汎用・識別的な特徴量を用いた音声認識性能の改善(耐雑音処理,第13回音声言語シンポジウム)
- GIF-SP : 汎用・識別的な特徴量を用いた音声認識性能の改善(耐雑音処理,第13回音声言語シンポジウム)
- スパース表現を用いた実環境における喀痰検出(ポスター講演,ポスターショートオーラル,時系列パターン認識)
- スパース表現を用いた実環境における喀痰検出(ポスター講演,ポスターショートオーラル,時系列パターン認識)
- 肺音の情報処理と応用
- GIF-SP : 汎用・識別的な特徴量を用いた音声認識性能の改善
- スパース表現を用いた実環境における喀痰検出
- K-062 日本食レストラン産業におけるマルチセンサとPOSデータに基づくサービスオペレーション推定(人間支援のためのセンシングとマルチメディア,K分野:教育工学・福祉工学・マルチメディア応用)
- E-026 Noise Robust Voice Conversion using GA-based Informative Feature
- E-027 汎用・識別的特徴量を用いた音声区間検出(音声情報処理,E分野:自然言語・音声・音楽)
- 接客時間推定に向けた従業員の位置・音声データによる発話クラスタリング
- スパース表現を用いた実環境における喀痰検出
- 雑音環境下における静的・動的情報を用いた音響モデル適応(雑音下音声認識,認識,理解,対話,一般)
- RO-008 検索新聞 : 新聞形式型検索情報提示システムにおけるマイクロブログを用いたユーザ適応(情報検索,O分野:情報システム)
- 高精度なマルチモーダル音声認識の実現に向けた取り組み(オーガナイズドセッション)