実況・対談における発声変形を考慮した音響モデルの検討(Session-1 音響モデル・特徴量・学習, 第7回音声言語シンポジウム)

概要

論文の詳細を見る
本稿では, 放送音声の認識率の低下の要因の一つである発話スタイルの影響を改善するため, 学習音声中の発声変形頻度を基準とする発声変形用音響モデルの導入法を検討した.発声変形を取り扱う単位として, トライフォン単位と単語単位, およびこれらの単位間でHMMを共有する場合と独立したHMMを用いる場合を取り上げ, 次の二つのタスクにおいて, 誤認識単語の削減効果を比較した.第一のタスクは, メタデータ制作を目的としたJリーグ中継の実況音声の認識であり, 絶叫発話と話速の速い部分を対象とし, 発声変形の単位を単語としてHMMを共有した場合に, キーワード誤りの15%が削減された.第二のタスクはニュース番組中の対談部分の認識であり, 話速の速い部分に起こる発声変形を対象とした.認識実験の結果, 発声変形の単位を単語とし, HMMを共有しない場合が, 認識率と探索空間の面から有利であることが確認された.一方, 発声変形とみなす単位を単語とした場合の実験結果から, 発声変形に単語依存性があることが確認され, HMMを共有した場合に認識誤りの10%が削減された.
社団法人情報処理学会の論文
2005-12-21