加重等分解度特徴量を用いたテキスト独立型話者識別

概要

論文の詳細を見る
本研究では, 話者の生理学的特徴を捉える音響特徴に着目して加重等分解度特徴量を提案し、さらに話者識別システムに取り込み, 話者識別を行った.音声の個人性については, 口・鼻腔の音響結合度合いによりスペクトル上の300Hzと3000Hz付近において極零対が生じ, または, 梨状窩の個人差により4000Hzから6000Hzまでの範囲において特徴的スペクトルが形成されているとの音声生成の研究報告があった.話者の生理学的特徴を取り入れるため上記の周波数領域を局部細分化して話者認識を行ったところ, 高い識別率を得るために, メルフィルタのバンドの最適な細分割数は, 高周波数領域において高くなる傾向になることがわかった.この結果は, 話者個人特徴の詳細を捉えるため, 全周波数領域でメルスケールより線形スケールの方が有効であろうということを示唆する.この知見をもとに, 本研究では, 線形スケールを用い上記の生理学的特徴に関わる周波数領域に大きな重み係数をつけDCTを施して音響特徴量(加重等分解度特徴量)を抽出した.提案した音響特徴量をMFCCと組み合わせたハイブリッドGMMモデルでは, 従来のGMMモデルより話者識別率が顕著に改善された.
2005-02-04