雑音環境下における合成発話アニメーションの評価(ヒューマンコミュニケーショングループ(HCG)シンポジウム)

概要

論文の詳細を見る
筆者らは、すでに自然な発話アニメーションの合成手法を提案してきた.しかし,その評価は主観評価実験によるところが大きかった.本稿では,発話アニメーションの客観的評価尺度を含む新しい評価手法について提案する.この評価手法では,発話アニメーションの性能は以下の3つの要素によって評価される.読唇が可能か.視覚的に自然か.音声と正確に同期しているか.読唇の可能性は,まず雑音環境下において顔アニメーションと音声とを被験者に提示し,発話単語がどの程度正しく聞き取ることができたかという実験により判断する.次に,発話アニメーションの視覚的な自然さと発話口形変化の滑らかさをMOS5段階評価する.音声との自然な同期に関しては,一定間隔で音声と発話アニメーションとの同期をずらしたものを被験者に提示し,主観的な同期のずれを調査するとともに、違和感の程度を5段階評価によって評価する.加えて,音声と発話アニメーションとの同期のずれが音声の知覚に及ぼす影響についても評価する.以上により,合成された発話アニメーションの品質評価を行い、音声との自然な同期について検証した.
社団法人電子情報通信学会の論文
2004-03-18