ロボットを対象とした二階層視聴覚統合音声認識システム
スポンサーリンク
概要
- 論文の詳細を見る
Noise-robust Automatic Speech Recognition (ASR) is essential for robots which are expected to communicate with human in a daily environment. In such an environment, Voice Activity Detection (VAD) performance becomes poor, and ASR performance deteriorates due to noises and VAD failures. To cope with these problems, it is said that humans improve speech recognition performance by using visual information like lip reading. Thus, we propose two-layered audio-visual integration framework for VAD and ASR. The two-layered AV integration framework includes three crucial methods. The first is Audio-Visual Voice Activity Detection (AV-VAD) based on Bayesian network. The second is a new lip-related visual feature which is robust for visual noises. The last one is microphone array processing to improve Signal-to-Noise Ratio (SNR) of input signal. We implemented prototype audio-visual speech recognition system based on our proposed framework using HARK which is our robot audition system. Through voice activity detection and speech recognition experiments, we showed the effectiveness of Audio-Visual integration, microphone array processing, and their combination for VAD and ASR. Preliminary results show that our system improves 20 and 9.7 points of ASR results with/without microphone array processing, respectively, and also improves robustness against several auditory/visual noise conditions.
著者
関連論文
- 複数の言語モデルと言語理解モデルによる音声理解の高精度化(音声認識・理解,情報爆発論文)
- 4Q-2 音声認識と言語理解を動的に選択する音声理解フレームワーク(音声対話・音声要約,学生セッション,人工知能と認知科学)
- 複数の言語モデル・言語理解方式を用いた音声理解の高精度化(理解)
- LE-008 音声認識結果とコンセプトへの重みづけによるWFSTに基づく音声言語理解の高精度化(自然言語・音声・音楽)
- 音声認識結果とコンセプトへの重みづけによるWFSTに基づく音声言語理解の高精度化(学生セッション I)
- マルチドメイン音声対話システムにおける対話履歴を利用したドメイン選択(音声言語)
- 5Q-3 神経回路モデルを用いた音声模倣モデルによる音声バブリングと母音獲得過程シミュレーション(ニューラルネット(1),学生セッション,人工知能と認知科学)
- ロボット聴覚オープンソースソフトウエアHARK
- 人工神経回路モデルと声道物理モデルを用いた母音模倣モデルに基づく音素獲得シミュレーション
- 残響下でのバージイン発話認識のための多入力独立成分分析を応用したロボット聴覚
- 4ZC-2 楽器の内部モデルに基づくフィードフォワード制御によるテルミン演奏ロボットの開発(身体,学生セッション,コンピュータと人間社会)
- 3Y-2 顔追跡による音環境可視化システムのアウエアネスの改善(アンビエント・インタフェース,学生セッション,インタフェース)
- 5S-1 RNNを備えた2体の小型ロボット間の首振り動作と音声によるインタラクションにおける共有シンボルの創発(認知・推論・探索,学生セッション,人工知能と認知科学)
- 5R-7 歌唱ロボットのためのビート情報とメロディ・ハーモニー情報の統合による音楽音響信号と楽譜の実時間同期手法の開発(音楽検索・解析,学生セッション,人工知能と認知科学)
- 5R-6 ベース音高確率とクロマベクトルの相関を考慮した和音進行認識(音楽検索・解析,学生セッション,人工知能と認知科学)
- 4R-2 音色特徴量に基づく調波・非調波統合モデルによる楽器音モーフィング(音楽演奏・生成,学生セッション,人工知能と認知科学)
- 4R-1 連続発音中の音色変化に着目した未学習譜面上への演奏信号生成(音楽演奏・生成,学生セッション,人工知能と認知科学)
- 4Q-4 音声対話システムにおける想定外発話の文法検証を用いた対話行為推定に基づくヘルプ生成(音声対話・音声要約,学生セッション,人工知能と認知科学)
- 4Q-3 実環境音声対話システムにおけるバージイン発話タイミングを活用した指示対象の同定(音声対話・音声要約,学生セッション,人工知能と認知科学)
- 3D-3 ロボットによる卓上物体操作のためのRNNを用いた道具身体化モデルの構築(人工知能(1),一般セッション,人工知能と認知科学)
- 5ZC-6 本質的に異なる数独解盤面の列挙と番号付け(エンタテインメントコンピューティング,学生セッション,コンピュータと人間社会)
- 調波構造と音源方向に基づく音源分離法における残響耐性の改善(音響と音声処理,音声強調,ロバスト音声認識)
- ロボット聴覚の現状と展望
- ロボットを対象としたビートトラッキング法の提案とその音楽ロボットへの応用
- 4.音楽ロボットのための実時間音楽情報処理(音楽情報処理技術の最前線)
- 単一テンプレート適応法による音楽音響信号を対象としたハイハットシンバルの音源同定(音楽音響信号認識)
- 6U-5 フィールドにおける音源定位のための音声視覚化デバイス「カエルホタル」の設計(ネットワーク応用,学生セッション,ネットワーク)
- ドラムパターン推定によるドラム音認識誤り補正手法
- テンプレート適応を利用した実世界の音楽音響信号に対するドラムスの音源同定
- ニホンアマガエルの同期した発声行動に関する実験的研究およびその数理モデル解析
- 移動型および静止型マイクロホンアレイ統合による複数移動音源追跡
- 楽譜情報を援用した多重奏音楽音響信号の音源分離と調波・非調波統合モデルの制約付きパラメータ推定の同時実現(音楽情報,新しいパラダイムの中での分散システム/インターネット運用・管理)
- 自己組織化マップによる教師なしクラスタリングを利用したドラム演奏の自動採譜(音楽音響信号認識/生成1)
- ゲーム理論に基づく参照結束性のモデル化と日本語・英語の大規模コーパスを用いた統計的検証
- インターネットワークにおける正しい電子メールアドレスを教えるシステム : Nuewildの構想
- 音高による音色変化を考慮した楽器音の音高・音長操作手法(演奏分析・支援・加工)
- 楽曲推薦システムの効率性とスケーラビリティの改善のための確率的推薦モデルのインクリメンタル学習法(検索・推薦)
- LinuxによるBeowulfクラスタ構築格闘記
- 2D-1 ソフトマスクと音響モデル適応を用いた3話者同時発話音声認識(音声・音楽情報処理,一般セッション,人工知能と認知科学)
- 音声対話システムにおける簡略表現認識のための誤認識増加を抑制する自動語彙拡張(学生セッション II)
- 3U-5 音声対話システムにおけるユーザの固有名詞の簡略化に対処する語彙拡張(音声言語情報処理,学生セッション,人工知能と認知科学)
- テルミンの音高・音量特性のモデルに基づくテルミン演奏ロボットの開発
- 複数の編集距離を用いた口語翻訳文の自動評価
- RNNを備えた2体のロボット間における身体性に基づいた動的コミュニケーションの創発
- 2X-8 音楽と自分の声を聞き分けながらビートに合わせて発声するロボットの開発(音楽情報科学(1)音楽音響,学生セッション,人工知能と認知科学)
- Query-by-Conducting:テンポ類似性に基づく同一楽曲における多様な解釈の検索インタフェース
- 多重奏音響信号中の演奏をユーザー指定の旋律に差し替えるフレーズ置換システム
- 音声対話システムにおけるラピッドプロトタイピングを指向したWFSTに基づく言語理解
- バージイン許容音声対話システムにおけるユーザ発話の分析と指示対象同定への応用
- SpeakBySinging: 歌声を話声に変換する話声合成システム
- 歌声GMMとビタビ探索を用いた多重奏中のボーカルパートに限定した基本周波数推定手法(音楽音響信号処理 (1))
- 多重奏音楽音響信号の音源分離のための調波・非調波モデルの制約付きパラメータ推定(認識・測定)
- 多重奏音楽音響信号の音源分離のための調波・非調波モデルの制約付きパラメータ推定(認識・測定)
- パネル討論会 : 人工知能とプログラミングの接点
- 複数の言語モデルと言語理解モデルによるラピッドプロトタイピング向け音声理解
- 楽曲の特徴量抽出と検索技術
- マルチメディアコンテンツにおける音楽と映像の調和度計算モデル
- 多重奏を対象とした音源同定 : 混合音テンプレートを用いた音の重なりに頑健な特徴量への重み付け及び音楽的文脈の利用(画像認識,コンピュータビジョン)
- Instrogram : 発音時刻検出とF0推定の不要な楽器音認識手法
- 伴奏書抑制と高信頼度フレーム選択に基づく楽曲の歌手名同定手法(音楽情報,情報処理技術のフロンティア)
- 伴奏音抑制と高信頼度フレーム選択に基づく楽曲中の歌声の歌手名同定手法
- 混合音テンプレートを用いた多重奏の音源同定(音楽音響信号認識)
- 和音区間検出と和音名同定の相互依存性を解決する和音認識手法(音楽音響信号認識)
- 音高による音色変化に着目した楽器音の音源同定:FO依存多次元正規分布に基づく識別手法(音楽情報)
- 音響的特徴に基づく楽器の階層表現の獲得とそれに基づくカテゴリーレベルの楽器音認識の検討(音楽音響信号認識/生成1)
- 特集「インターネット」の編集にあたって(特集●インターネット)
- バージイン許容音声対話システムにおけるユーザ発話の分析と指示対象同定への応用
- AAAI-98参加報告
- 特集「インターネット」の編集にあたって(特集・インターネット)
- 調波構造と音源方向に基づく音源分離法における残響耐性の改善(音響と音声処理,音声強調,ロバスト音声認識)
- 音オントロジーに基づいた音環境理解システムの統合 (「オントロジーの基礎と応用」)
- 多重奏楽曲の楽器音量バランス変化による音楽ジャンルシフト
- 複数楽器混合モデルのパラメータ推定と楽器名同定への応用
- 残差スペクトルモデルによる伴奏・残響成分抑制に基づいた楽器演奏分析合成の高精度化
- 音響信号と音楽的制約を統合したバイオリンの演奏弦系列の推定
- 音色の音高依存性を考慮した楽器音の音高操作手法
- 楽器音イコライザによる音色の類似度に基づく楽曲検索システム(音響分析一般(2))
- 4X-4 音楽と映像の調和度計算モデルを用いたクロスメディア検索(音楽情報科学(3)検索・インタフェース,学生セッション,人工知能と認知科学)
- 2X-7 楽器固有の音響的特徴を考慮した楽器音の音高操作手法(音楽情報科学(1)音楽音響,学生セッション,人工知能と認知科学)
- 2X-6 複数楽器個体による事前分布を用いた調波・非調波統合モデルのパラメータ推定(音楽情報科学(1)音楽音響,学生セッション,人工知能と認知科学)
- 2X-5 ベース音高を考慮したポピュラー音楽に対する和音進行認識(音楽情報科学(1)音楽音響,学生セッション,人工知能と認知科学)
- 音色特徴量分布の利用による調波・非調波統合モデルのパラメータ推定(音楽音響信号処理 (2))
- 階層的句アラインメントを用いた統計的機械翻訳(自然言語処理)
- 生成方向を考慮した統計的機械翻訳のためのデコーディングアルゴリズム(自然言語)
- 独立成分分析に基づく適応フィルタのロボット聴覚への適用
- 音声認識結果とコンセプトへの重みづけによるWFSTに基づく音声言語理解の高精度化(学生セッション I)
- 遺伝的アルゴリズムを用いたパラメータ最適化による話者位置に基づく同時発話認識の向上
- 3D-4 公的討議の書き起こし議事録を用いた懸案事項共有化フレームワーク(自然言語処理(1),一般セッション,人工知能と認知科学,情報処理学会創立50周年記念)
- ゲーム理論による中心化理論の解体と実言語データに基づく検証
- 特集「マルチエージェントと協調計算」の編集にあたって ( マルチエージェントと協調計算)
- 5T-4 調波GMMとWienerフィルタに基づく音楽音響信号の残響抑圧(音楽信号処理,学生セッション,人工知能と認知科学,情報処理学会創立50周年記念)
- 3U-1 ロボット音声対話のためのMFTとICAによるバージイン許容機能の評価(音声言語情報処理,学生セッション,人工知能と認知科学)
- E-052 バージインを許容するロボット音声対話のためのICAを用いたセミブラインド音源分離(E分野:自然言語・音声・音楽)
- 動的リコンフィギャラブルデバイスDRPを用いたロボット聴覚のための音源分離フィルタ(音声,聴覚)
- 6T-8 複数自由度を用いて音高特性モデルに基づく音高制御を行うテルミン演奏ロボットの開発(音楽推薦・演奏支援,学生セッション,人工知能と認知科学,情報処理学会創立50周年記念)
- 網 : 新しいATMSの処理系とその共有メモリ型マルチプロセッサ上での並列処理
- SOARの学習過程への多重文脈推論の適用
- ロボットを対象とした二階層視聴覚統合音声認識システム
- ロボットを対象とした二階層視聴覚統合音声認識システム
- クワドロコプタ搭載のマイクロホンアレイを用いた屋外音環境理解の逐次雑音推定による向上