Vocal Fry発声区間の自動検出法(音声,聴覚)

概要

論文の詳細を見る
Vocal fry(フライ)は,声帯振動の様式に起因する声質の一種であり,気分的にテンションが低くリラックスしている場合や,強い感情や態度の表現の際に喉頭を力んだ場合に生じ,バラ言語や非言語情報を伝達する役割をもっている.本論文は,音声信号からフライ区間を自動的に検出することを目的としている.フライは通常発声よりも低い基本周波数の範囲で生じやすい.ゆえに,典型的な固定フレーム長の短時間処理が問題となるが,その解決策として,本論文では声帯パルスに同期した手法を提案した.具体的には,フライの声帯パルスのインパルス的な特性とダンピング特性を考慮し,超短時間処理で求めたパワー軌道から声帯パルスの候補となるパワーピークを検出する.検出されたパワーピークにおいて,周期性とパルス間類似度を用いて,フライであるか,それともインパルス的な雑音であるかを判定する.評価実験として,パワーピーク検出・周期性・パルス間類似度に関連するしきい値パラメータを様々な条件で分析した.その結果,73%の高い検出率と4%の低い挿入誤り率により,自動的にフライ区間が検出可能であることが示された.
2006-12-01