AAMを用いた唇領域特徴による音声発話認識(一般セッション,クロスモーダル)

スポンサーリンク

概要

論文の詳細を見る
雑音環境下で頑健に音声認識を行う手法の一つとして,音声情報に唇動画像情報を併用して認識を行うマルチモーダル音声認識が注目され,近年研究が進められている.マルチモーダル音声認識では音声情報のみでなく画像情報も大きな役割を果たすため,画像に対してどのような特徴量を用いるかが重要な論点となる.従来から音声特徴量はMFCCなどある程度定まった特徴量が用いられているのに対し,画像特徴量はその抽出法の違いから,さまざまな特徴量が提案されている.本研究ではActive Appearance Modelを用いることで唇領域を自動抽出し,座標値と輝度値の情報を含んだActive Appearance Modelのcombinedパラメータを用いて発話認識することにより,特徴量としての有効性を確認する.
社団法人電子情報通信学会の論文
2010-01-14

著者

関連論文

もっと見る

スポンサーリンク