発話シーンからのキーフレーム検出とキーフレームに基づく単語読唇
スポンサーリンク
概要
- 論文の詳細を見る
In this paper, we propose the new keyframe-based lip reading method which does not need the advanced registration of an utterance scene. To extract keyframe, we apply the frame subtraction method and extract frame which the difference value is the local minimum as the keyframe. We compute thirteen shape features from the five lip regions of the extracted keyframe. Then we apply a discriminant analysis to mouth shape recognition. We generate a code sequence based on a mouth shape recognition result. Moreover, in accordance with several rules, we generate candidate code sequences. Finally, we apply DP matching using two kinds of code sequence of based on keyframe and candidate, and select the similar code sequence as the result word. We set Japanese 19 words as the target. We took four speakers utterance scene. We carried out three experiments of the keyframe extraction, the mouth shape recognition, and the word recognition. As a result, we obtained average recognition rate of 53.9%. Although there was individual difference, one speaker obtained 72.1% of the highest recognition rate.
- 2011-02-01
著者
-
齊藤 剛史
九州工業大学大学院情報工学研究院システム創成情報工学研究系
-
小西 亮介
鳥取大学大学院工学研究科情報エレクトロニクス専攻
-
小西 亮介
鳥取大学大学院工学研究科
-
小西 亮介
鳥取大学
-
森下 和敏
鳥取大学大学院工学研究科
-
齊藤 剛史
九州工業大学大学院情報工学研究院
-
齋藤 剛史
九州工業大学大学院情報工学研究院
-
齊藤 剛史
九州工業大学
関連論文
- トラジェクトリ特徴量を利用した単語読唇に関する基礎検討 (ヒューマン情報処理)
- トラジェクトリ特徴量を利用した単語読唇に関する基礎検討 (パターン認識・メディア理解)
- 複数口唇領域を利用した多言語に有効な単語読唇(テーマセッション,手,顔,身体表現の認識,理解)
- 複数口唇領域を利用した多言語に有効な単語読唇(テーマセッション4)
- 携帯電話・ネットワークを利用した個人用の防犯・生活支援システム
- エレベータによるフロア間移動が可能な音声操作型電動車いす(肢体障害・介護,HCGシンポジウム)
- 連続DPマッチングを用いた発話シーンからの単語スポッティング認識 (福祉情報工学)
- 連続DPマッチングを用いた発話シーンからの単語スポッティング認識 (音声)
- 連続DPマッチングを用いた発話シーンからの単語スポッティング認識 (パターン認識・メディア理解)
- 特徴選択と複数のサブトラッカによるMean Shift追跡 (音声)
- 特徴選択と複数のサブトラッカによるMean Shift追跡 (パターン認識・メディア理解)
- 鳥取大学工学部電気電子工学科における教育改革と評価
- スケジューリングによる待機電力削減機能を持つ多機能コンセントの開発
- 音声命令による電動車椅子の操作(福祉と音声処理,一般)
- 音声命令による電動車椅子の操作(福祉と音声処理,一般)
- 自己組織化マップを用いたハーブ種の判別
- 前向きおよび後向き線形予測法を用いた雑音下での指数減衰信号の周波数推定
- 前向きおよび後向き線形予測法を用いた雑音下での指数減衰信号の周波数推定
- 前向きおよび後向き線形予測法を用いた雑音下での指数減衰信号の周波数推定
- SnO_2薄膜センサのホルムアルデヒド検出における適応線スペクトル強調器の応用
- 自己組織化マップを用いたハーブ種および混合ガス種の判別 (第19回センシングフォーラム--センシング技術の新たな展開と融合 資料) -- (セッションTC2 センサ・情報処理)
- 水晶振動子を用いたハーブ種識別システムの構築
- インターネットを利用したホームセキュリティシステムの構築
- 正弦波モデルによる信号のパラメータ推定について
- 正弦波モデルによる信号のパラメータ推定について
- 正弦波モデルによる信号のパラメータ推定について
- 音源分離手法を用いた複数単語同時認識
- トラジェクトリ特徴量を利用した単語読唇に関する基礎検討(テーマ関連,顔・人物・ジェスチャ・行動)
- トラジェクトリ特徴量を利用した単語読唇に関する基礎検討(テーマ関連,顔・人物・ジェスチャ・行動)
- 特徴選択と複数のサブトラッカによるMean Shift追跡(一般セッション,クロスモーダル)
- 特徴選択と複数のサブトラッカによるMean Shift追跡(一般セッション,クロスモーダル)
- 特徴選択と複数のサブトラッカによるMean Shift追跡(一般セッション,クロスモーダル)
- 特徴選択と複数のサブトラッカによるMean Shift追跡(一般セッション,クロスモーダル)
- 単眼カメラを用いた中央走行型の屋内移動ロボット
- AS-2-3 単眼カメラを用いた屋内移動ロボット(AS-2.スマートパーソナルエレクトロニクスシステムの技術と今後の展開,シンポジウムセッション)
- トラジェクトリ特徴量に基づく単語認識のリアルタイム処理(一般セッション2,アンビエント環境知能)
- トラジェクトリ特徴量に基づく単語認識のリアルタイム処理(一般セッション2,アンビエント環境知能)
- トラジェクトリ特徴量に基づく単語認識のリアルタイム処理(一般セッション2)
- 横顔画像の輪郭形状に基づく読唇(テーマセッション,手,顔,身体表現の認識,理解)
- 複数口唇領域を利用した多言語に有効な単語読唇(テーマセッション,手,顔,身体表現の認識,理解)
- 横顔画像の輪郭形状に基づく読唇(テーマセッション,手,顔,身体表現の認識,理解)
- 発話シーンからのキーフレーム検出とキーフレームに基づく単語読唇
- 連続DPマッチングを用いた発話シーンからの単語スポッティング認識(一般セッション,福祉と見守りのための画像・音声処理)
- 連続DPマッチングを用いた発話シーンからの単語スポッティング認識(一般セッション,福祉と見守りのための画像・音声処理)
- 連続DPマッチングを用いた発話シーンからの単語スポッティング認識(一般セッション,福祉と見守りのための画像・音声処理)
- トラジェクトリ特徴量に基づく単語読唇(画像認識,コンピュータビジョン)
- レーザレンジファインダを用いたSLAMによる電動車いすの走行制御 (福祉情報工学)
- A-4-20 顔面熱画像を利用した個人認証(A-4.信号処理,一般講演)
- ハードウェア化された動的輪郭モデルを用いた自律追従システムの開発
- RC-009 多機能コンセントのスケジューリング機能による待機電力の削減(ハードウェア・アーキテクチャ,査読付き論文)
- C-025 ネットワークから制御可能な多機能コンセント(ハードウェア・アーキテクチャ,一般論文)
- 周波数・位相推定手法に基づく複数音声の到来方向推定について
- パラメータ推定手法に基づく複数音源の方向推定について
- パラメータ推定手法に基づく複数音源の方向推定について
- パラメータ推定手法に基づく複数音源の方向推定について
- 動画像処理を目指した動的輪郭モデルのハードウェア化について
- オプティカルフロー分布を利用したMean Shift追跡(画像認識,コンピュータビジョン)
- リアルタイム口部形状認識を利用した意思伝達システム(福祉と知能・情動・認知障害,福祉と音声処理,一般)
- リアルタイム口部形状認識を利用した意思伝達システム(福祉と知能・情動・認知障害,福祉と音声処理,一般)
- リアルタイム口部形状認識を利用した意思伝達システム(福祉と知能・情動・認知障害,福祉と音声処理,一般)
- 口内領域形状に基づく日本語単音の分類(一般セッション8(顔・医用画像),文字・文書の認識・理解)
- 口部パターン形状を利用した文字入力システム(一般セッション1)
- 口部パターン形状を利用した文字入力システム(一般セッション1,CV/PR技術のVRへの応用)
- A-4-56 高速かつロバストなMean Shift追跡(A-4.信号処理,一般講演)
- オプティカルフロー分布を利用したMean shift追跡--色モデルとフローモデルを統合したMean Shift追跡法の提案
- 回転可動カメラによるリアルタイム人物位置推定システム
- A-4-40 音声操作型電動車椅子の開発(A-4.信号処理,一般講演)
- テレビ会議のための発言者自動検出(テーマセッション(1),人の検出・計測・認識)
- テレビ会議のための発言者自動検出(テーマセッション(1),人の検出・計測・認識)
- 顔面熱画像を用いた顔認識 (第25回センシングフォーラム資料--センシング技術の新たな展開と融合) -- (パターン計測(1))
- I_040 ビデオ画像と熱画像を用いた単語認識(I分野:画像認識・メディア理解)
- ビデオ画像と熱画像による読唇(一般セッション(2), ユビキタスメディアの将来展望)
- ビデオ画像と熱画像による読唇(一般セッション(2), ユビキタスメディアの将来展望)
- A-4-13 屋内移動ロボットのための走行領域の検出(A-4.信号処理,一般講演)
- 特徴選択と複数のサブトラッカによる Mean Shift 追跡
- 横顔画像の輪郭形状に基づく読唇(テーマセッション4)
- トラジェクトリ特徴量を利用した単語読唇に関する基礎検討
- 発話シーンからのキーフレーム検出とキーフレームに基づく単語読唇
- レーザレンジファインダを用いたSLAMによる電動車いすの走行制御(コミュニケーションの心理及び一般)
- A-4-7 リアルタイム口部パターン認識(A-4.信号処理,一般講演)
- 電流センサに基づく家電機器の認識 (第25回センシングフォーラム資料--センシング技術の新たな展開と融合) -- (センサ(2))
- A-4-6 読唇における発話単語からの音節の自動抽出と母音分類(A-4.信号処理,一般講演)
- H-016 唇および口内領域形状に基づくトラジェクトリ特徴量による読唇(H分野:画像認識・メディア理解)
- SSRフィルタを用いた目検出及び瞬き検出 (メディア工学)
- SSRフィルタを用いた目検出及び瞬き検出 (マルチメディア情報ハイディング・エンリッチメント)
- SSRフィルタを用いた目検出及び瞬き検出 (画像工学)
- SSRフィルタを用いた目検出及び瞬き検出 (ライフインテリジェンスとオフィス情報システム)
- 距離画像を用いたリアルタイム指文字認識 (マルチメディア情報ハイディング・エンリッチメント)
- 距離画像を用いたリアルタイム指文字認識 (画像工学)
- 距離画像を用いたリアルタイム指文字認識 (ライフインテリジェンスとオフィス情報システム)
- 葉画像を用いた樹木の認識 (メディア工学)
- 距離画像を用いたリアルタイム指文字認識 (メディア工学)
- 葉画像を用いた樹木の認識 (マルチメディア情報ハイディング・エンリッチメント)
- 葉画像を用いた樹木の認識 (画像工学)
- 葉画像を用いた樹木の認識 (ライフインテリジェンスとオフィス情報システム)
- 葉画像を用いた樹木の認識
- 距離画像を用いたリアルタイム指文字認識
- SSRフィルタを用いた目検出及び瞬き検出
- 読唇に有効な顔モデルの検討(一般セッション,人の視聴覚情報処理とPRMUの接点)
- 読唇に有効な顔モデルの検討(一般セッション,人の視聴覚情報処理とPRMUの接点)