連続DPマッチングを用いた発話シーンからの単語スポッティング認識(一般セッション,福祉と見守りのための画像・音声処理)

スポンサーリンク

概要

論文の詳細を見る
本論文は読唇技術においてこれまで試みられていない文章発話シーンに対する単語スポッティング認識に取り組む.読唇に関する研究は数多くなされているが,認識対象は単音あるいは単語の発話シーンであり,文章の発話シーンを対象とした研究報告はない.本論文では先行研究である単語読唇で提案した特徴量を用いて,連続DPマッチングを用いたスポッティング認識を適用する.新聞記事29文を処理対象とし,出現頻度の高い16語を認識対象に設定した.5人の発話者の発話シーンを撮影し,認識実験を行なった結果,平均認識率46%を得た.認識対象16語の発話時間と認識結果の相関を調べると,発話時間の短い単語ほど間違えられやすい傾向があることがわかった.次に認識に用いた参照パターンを用いて単語読唇を行った結果,85%の認識率を得た.また両認識結果は単語に関して相関があることを確認した.
2010-10-01

著者

関連論文

もっと見る

スポンサーリンク