スペクトル平面における勾配ヒストグラムに基づく音声特徴量の検討(ポスターセッション,第10回音声言語シンポジウム)

概要

論文の詳細を見る
本稿では,時間-周波数平面上における対数パワースペクトルの勾配情報に基づく特徴量を用いた音声特徴量抽出手法について検討を行う.現在,音声特徴量としてMFCCが広く用いられているが,時間特徴が表現されていないという問題がある.また,ΔMFCCやΔΔMFCCは線形回帰係数であるため,時間特徴の直接的な表現でないと言える.これに対し,本研究では,より直接的に時間特徴を表現するため,時間-周波数平面上の局所領域から勾配情報に基づく音声特徴量を抽出する手法を提案する.本稿で提案する手法は,画像認識分野で用いられているSIFT(Scale Invariant Feature Transform)やHOG(Histograms of Oriented Gradients)などの勾配に基づく特徴抽出手法を音声認識に応用したものである.これらは,物体認識や画像識別など様々な画像タスクにおいて効果を挙げている.提案手法に対し,評価実験として音素識別実験を行ったところ,MFCCと比べ,高い識別率が得られた.また,MFCCと組み合わせることにより,さらに識別精度の改善が得られた.
2008-12-02