視線運動の離散性を用いた視線認識(テーマ関連セッション2,顔・ジェスチャの認識・理解)
スポンサーリンク
概要
- 論文の詳細を見る
視線認識を目の部分画像を用いて行う際に,視線運動の離散性を利用して,複数フレームから得られる情報を統合することを試みる.単一の画像から得られる情報は,視線方向以外にも個人性や照明条件等の環境に関する情報を多く含んでいる.個人性や環境の画像に与える影響は大きく,数多くデータを収集して個人・環境非依存のモデルを作ると,曖昧性が大きく,良い性能が得られないことが知られている.一方,一つの対話セッションの間,対話相手や照明条件が急に変化することは極めて稀である.従って,同一対話内における複数フレームの画像を用いて得られる差分情報は個人性や環境の影響を受けにくいと考えられる.また,人の視線は瞬時的変化と安定を繰り返す傾向にある.本研究ではこの瞬時的変化を捉えて時間を分割し,単一画像・複数画像による情報を,状態遷移モデルを用いて逐次検証することで,対話全体に亘って最も尤もらしい視線方向の列を求めることを試みた.実際の対話データを用いて行った実験で,単一画像を用いた場合に0.66であったF値が,0.89まで向上した.
- 社団法人電子情報通信学会の論文
- 2007-08-27
著者
関連論文
- 音声認識実用化技術の展開(総合報告)
- 複数情報の統合による人物の性別・年齢層の推定法(顔とジェスチャの認識)
- クラス距離を重みとする局所保存射影とその顔画像による年齢推定への応用(テーマ関連セッション2)
- 会話ロボットとその聴覚機能
- 音声シフト : 音高の意図的な変化を利用した音声入力インタフェース(音声, 聴覚)
- 音声シフト : "SHIFT"on Speech
- I-062 監視カメラ映像からの実時間顔検出手法の一検討(I.画像認識・メディア理解)
- 複数情報の統合による人物の性別・年齢層の推定法
- 探索空間のエントロピーに基づく特徴量ストリームの動的な統合(音声認識・識別,第9回音声言語シンポジウム)
- 集合知に基づく語彙情報を用いたトピック依存言語モデリング(理解)