マルチモーダル音声認識のための顔検出

概要

論文の詳細を見る
低SNR環境の音声認識において、画像情報を併用することにより認識率が向上することが知られている。更に、話者の顔向きや位置など、音声情報からは得られない情報を検出することも可能である。そのためには、実時間で画像中から顔や、調音器官の部位を同定したり、顔向きを推定する必要がある。ここでは、オンラインマルチモーダル音声認識のための顔検出アルゴリズムの1例について報告する。
一般社団法人情報処理学会の論文
2002-02-01

著者

中村哲
独立行政法人情報通信研究機構:(株)atr音声言語コミュニケーション研究所
中村哲
ATR音声言語通信研究所
中村哲
(独)情報通信研究機構
中村哲
Atr音声口語コミュニケーション研究所
村井和昌
ATR音声口語コミュニケーション研究所

関連論文

A-16-18 Blendshapesによるリップシンクアニメーションのためのキーフレーム削除法(A-16.マルチメディア・仮想環境基礎,一般講演)
京都観光案内対話コーパスにおける対話行為タグの設計と分析(理解)
同調的対話システム構築のための音声対話コーパスの構築(「ユニバーサルコミュニケーションを実現するための言語処理技術」シンポジウム)
携帯型端末を用いた音声自動翻訳システムとフィールド実験(モバイルと放送の融合時代を迎えて(1セグ放送, モバイル放送, 携帯放送融合サービス, 1セグ対応携帯端末, モバイルコンテンツと放送コンテンツの融合, マルチメディア配信, ディジタル放送受信機, および一般))
NICT知識創成コミュニケーション研究センターの研究と高度言語情報融合フォーラム(ALAGIN)の活動について(Web情報処理,Webとデータベースに関する技術報告)
雑音下音声認識評価ワーキンググループ活動報告 : 認識に影響する要因の個別評価環境(3)(SIG-SLP内組織の活動報告)
雑音下音声認識評価ワーキンググループ活動報告 : 認識に影響する要因の個別評価環境(2)(雑音・VAD,第9回音声言語シンポジウム)
雑音下音声認識評価ワーキンググループ活動報告 : 認識に影響する要因の個別評価環境 (2)(雑音・VAD,第9回音声言語シンポジウム)
バイモーダル音声認識における音素境界を越えた同期性のモデル
音声翻訳システムの研究開発
音声認識における頑健性 : 音響分析・音響モデル,なにが課題か(企画)
NICTにおける音声・言語研究拠点MASTARプロジェクトについて(「ユニバーサルコミュニケーションを実現するための言語処理技術」シンポジウム)
音声翻訳単位の推定における句読点情報の効果(ドキュメント処理・翻訳・言語獲得,第10回音声言語シンポジウム)
多チャンネル三次元音場再現システムの再生方式の違いによる再現性能評価
マルチモーダル音声言語処理とその応用(マルチモーダル)
音声翻訳研究20年の夜明け : 受賞業績携帯電話によるネットワーク型コーパスベース音声翻訳システムの構築(平成19年度喜安記念業績賞紹介)
同時通訳者の知識と韻律情報を用いた講演文章のチャンキング(チャンキング・要約)
2D-5 多言語音声翻訳基盤の通信インタフェースの検討と構築(音声対話・翻訳,一般セッション,人工知能と認知科学)
ストーリへの没入感を実現するダイブイントゥザムービープロジェクト(テーマ関連/オーガナイズドセッション)
ストーリへの没入感を実現するダイブイゥザムービープロジェクト(オーガナイズドセッション,CV/PR技術のVRへの応用)
5.効率的アニメ制作支援のための3次元CG技術(情報技術が支えるアートとコンテンツの世界)
NICTにおけるユニバーサルコミュニケーションのための音声言語研究(研究動向を探るセッション)
HMM/BN音響モデルの設計と実装(国際ワークショップ"Beyond HMM")
連続音声認識候補受理/リジェクションのためのワードスポッティング仮説検証手法(第5回音声言語シンポジウム : システム・信頼度)
統計的対話モデルを用いたWFSTに基づく音声対話システム
同調的対話を実現するプロトタイプシステムの開発(対話・インタフェース・インタラクション)
SLP雑音下音声認識評価WG活動報告 : 評価用データと評価手法について(Session-6 スペシャルセッション: 共通コーパスを利用した耐雑音技術評価, 第7回音声言語シンポジウム)
ATR実環境雑音DB-ATRANS-を用いた雑音重畳音声認識実験(耐雑音)
実走行車内単語音声データベースCENSREC-3と共通評価環境の構築
CENSREC-3 : 実走行車内単語音声データベースと評価環境の構築(ポスターセッション)(第6回音声言語シンポジウム)
実環境下音声認識の評価の標準化とその動向(音声・言語における標準化動向)(第6回音声言語シンポジウム)
分散型認識システムでのデータ補完に関する一検討
歩行者支援GISにおける音声入力インタフェースの検討(福祉と言語処理/一般)
音声翻訳研究の展開(機械翻訳)
翻訳可能なフレーズを単位とした音声認識結果の信頼度評価
連続音声認識候補受理/リジェクションのためのワードスポッティング仮説検証手法(第5回音声言語シンポジウム : システム・信頼度)
音声翻訳単位の推定における句読点情報の効果(ドキュメント処理・翻訳・言語獲得,第10回音声言語シンポジウム)
音声翻訳単位の推定における句読点情報の効果(ドキュメント処理・翻訳・言語獲得,第10回音声言語シンポジウム)
来場者の声の特徴を反映する映像エンタテインメントシステムのための台詞音声生成システム
iFACe:デジタルアニメ声優体験システム
携帯型端末を用いた音声自動翻訳システムとフィールド実験
雑音下音声認識評価ワーキンググループ活動報告 : 認識に影響する要因の個別評価環境(2)(雑音・VAD,第9回音声言語シンポジウム)
実環境における発話区間検出のための音響情報と画像情報の統合(音響と音声処理,音声強調,ロバスト音声認識)
実環境における発話区間検出のための音響情報と画像情報の統合(音響と音声処理,音声強調,ロバスト音声認識)
個人の音声を反映する映像エンタテインメントシステム
QAシステムのための音声入力インターフェース
音声認識の信頼度・複数候補を利用したWFST対話システムの評価
雑音下マルチモーダル音声認識評価基盤CENSREC-1-AVの構築
相談型対話のモデル化と対話戦略の最適化
利得適応型AR-HMM分解法を用いた音響モデルの雑音適応化の検討(音響と音声処理,音声強調,ロバスト音声認識)
利得適応型AR-HMM分解法を用いた音響モデルの雑音適応化の検討(音響と音声処理,音声強調,ロバスト音声認識)
CENSREC-2 : 実走行車内における連続数字音声データベースと評価環境の構築
自動車内における連続数字音声コーパスCENSREC-2の設計と評価(Session-7 スペシャルセッション(ポスター): 共通コーパスを利用した耐雑音技術評価, 第7回音声言語シンポジウム)
Switching dynamical systemとパーティクルフィルタを用いた非定常雑音の逐次推定(Session-1 音響モデル・特徴量・学習, 第7回音声言語シンポジウム)
自動車内における連続数字音声コーパスCENSREC-2の設計と評価(Session-7 スペシャルセッション(ポスター): 共通コーパスを利用した耐雑音技術評価, 第7回音声言語シンポジウム)
SLP雑音下音声認識評価WG活動報告 : 評価用データと評価手法について(Session-6 スペシャルセッション: 共通コーパスを利用した耐雑音技術評価, 第7回音声言語シンポジウム)
自動車内における連続数字音声コーパスCENSREC-2の設計と評価(Session-7 スペシャルセッション(ポスター): 共通コーパスを利用した耐雑音技術評価, 第7回音声言語シンポジウム)
SLP雑音下音声認識評価WG活動報告 : 評価用データと評価手法について(Session-6 スペシャルセッション: 共通コーパスを利用した耐雑音技術評価, 第7回音声言語シンポジウム)
Switching dynamical systemとパーティクルフィルタを用いた非定常雑音の逐次推定(Session-1 音響モデル・特徴量・学習, 第7回音声言語シンポジウム)
Switching dynamical systemとパーティクルフィルタを用いた非定常雑音の逐次推定(Session-1 音響モデル・特徴量・学習, 第7回音声言語シンポジウム)
音声認職の信頼度・複数候補を利用したWFST対話システムの評価
歩行者支援地理情報システムにおける音声入力インタフェースと高齢者に対するその評価
歩行者支援GISにおける音声入力インタフェースの検討(福祉と言語処理/一般)
HMM/BN音響モデルの設計と実装
HMM/BN音響モデルの設計と実装(国際ワークショップ"Beyond HMM")
HMM/BN音響モデルの設計と実装(国際ワークショップ"Beyond HMM")
雑音や発話スタイルの変動に頑健な日本語大語彙連続音声認識
ハイブリッドHMM/BNモデルに基づいた調音特徴とスペクトル特徴の統合
ハイブリッドHMM/BNモデルに基いた大語彙音声認識システム
ハイブリッドHMM/BNモデルに基いた大語彙音声認識システム
多様な雑音環境下での頑健な音声認識
GMMを用いた音声区間の検出
ベイジアンネットとジャンクションツリー分解を用いて知識を組み込んだ統計的音響モデル(第8回音声言語シンポジウム)
ベイジアンネットとジャンクションツリー分解を用いて知識を組み込んだ統計的音響モデル(Session-5 特徴量・音響モデル,第8回音声言語シンポジウム)
ベイジアンネットとジャンクションツリー分解を用いて知識を組み込んだ統計的音響モデル(Session-5 特徴量・音響モデル,第8回音声言語シンポジウム)
インドネシア語の音声コｰパス作成および音声認識システムの開発
インドネシア語の音声コーパス作成および音声認識システムの開発
インドネシア語の音声コーパス作成および音声認識システムの開発
インドネシア語の音声コーパス作成および音声認識システムの開発(ポスターセッション)(第6回音声言語シンポジウム)
インドネシア語の音声コーパス作成および音声認識システムの開発(ポスターセッション)(第6回音声言語シンポジウム)
インドネシア語の音声コーパス作成および音声認識システムの開発(ポスターセッション)(第6回音声言語シンポジウム)
マルチモーダル音声認識のための顔検出
マルチモーダル音声認識のための顔検出
話者の顔画像を併用した発話検出
擬人化音声対話エージェント基本ソフトウェアの開発プロジェクト報告(プロジェクト紹介(2))(第5回音声言語シンポジウム)
擬人化音声対話エージェント基本ソフトウェアの開発プロジェクト報告(第5回音声言語シンポジウム : プロジェクト紹介(2))
擬人化音声対話エージェント基本ソフトウェアの開発プロジェクト報告(第5回音声言語シンポジウム : プロジェクト紹介(2))
擬人化音声対話エージェントツールキットGalatea
擬人化音声対話エージェント開発プロジェクト
擬人化音声対話エージェントツールキットの基本設計
調音運動ダイナミクスの音声認識への応用(聴覚・音声/一般)
F0パターンの自動推定と目標点の抽出(Session-4 一般(ポスターセッション),第8回音声言語シンポジウム)
F0パターンの自動推定と目標点の抽出(Session-4 一般(ポスターセッション),第8回音声言語シンポジウム)
新映像技術「ダイブイントゥザムービー」
音場の局所化技術を応用した指向性スピーカシステムの試作と評価
音声翻訳技術の動向
新映像技術「ダイブイントゥザムービー」
雑音DBを用いたモデル適応化HMMのSN比別マルチパスモデルによる雑音下音声認識
言葉の壁を越える音声翻訳技術
Web時代の音声・言語技術

マルチモーダル音声認識のための顔検出

スポンサーリンク

概要

著者

関連論文

スポンサーリンク