横顔の動画像情報を用いたマルチモーダル音声認識(自然言語情報処理研究会と一部合同開催 : マルチモーダル・音声インタフェース関連)

スポンサーリンク

概要

論文の詳細を見る
本論文では,横顔から抽出された口唇動画像情報を利用した,雑音に頑健な音声認識手法を提案する.これまでのマルチモーダル音声認識手法では,主に顔の正面から撮影された口唇画像を用いているが,モバイル環境で利用することを考えると,ユーザは発話をしながらカメラ付き携帯電話を顔の正面で持たなければならず,音声入力が困難である.提案手法は,携帯電話のマイク部分に小型カメラを搭載し,その映像を用いることを想定しており,自然なスタイルで容易に音声と画像を取り込むことができる.画像特徴量はオプティカルフロー解析によって抽出される.フレームごとに画像特徴量を音響特徴量と結合し,マルチストリームHMMを用いて認識を行う.白色雑音を重畳した連続数字音声による認識実験を行ったところ,画像情報を利用することによって,様々なSN比条件で数字正解精度の改善が確認された.SN比5dBの時に画像情報の効果が最も高く,正解精度の改善は約6%であった.
一般社団法人情報処理学会の論文
2003-05-27

著者

関連論文

もっと見る

スポンサーリンク