モーラを単位とした基本周波数パターンの確率モデル化とそれによるアクセント句境界の検出 (<特集>音声言語情報処理)

概要

論文の詳細を見る
アクセントやイントネーションといった音声の韻律的特徴から音声認識に有効な情報を高い精度で抽出するためには, 1)特徴量の変動に対処するため韻律を確率モデルで表現することや, 2)韻律的特徴のみならず音韻の情報をあわせて利用することが必要である. そこで本論文では, 日本語連続音声の基本周波数(F_0)パターンに対し, 音声認識プロセスで得られるモーラ境界情報を利用し, モーラを単位としてF_0パターンを確率モデル化する手法を提案する. 2名の男性話者が, 各々500文を発声したデータベースを用い, その50文を実験用データ, 450文を学習用データとして, 本モデルを用いたアクセント句境界検出とアクセント型認識の実験を行った. データベース付属の音素ラベルから作成した正解モーラ境界を用いたとき, 特定話者で検出率約77%, 挿入誤り率約15%, 2話者間で検出率約76%, 挿入誤り率約18%を得た. また, 比較のため, モーラ境界を簡単な音声認識によって得た場合と, 音韻境界情報を利用せずにフレーム単位でモデル化した場合の実験も行った. アクセント型の認識実験結果と併せ, 得られた結果は, 提案モデルの有効性を示すものであった.
一般社団法人情報処理学会の論文
1999-04-15