多数話者モデルを用いた討論音声の教師なし話者インデキシング(音声,聴覚)

スポンサーリンク

概要

論文の詳細を見る
討論などの長時間音声のアーカイブ化を指向した教師なし話者インデキシングのために,多数話者との類似度を用いたオフラインのインデキシング手法を提案する.音声データベースから構築した多数話者モデル(Anchor models)による話者識別スコアを成分として発話ごとに話者ベクトルを構成し,これをクラスタリングする.ベクトルの話者分離能力を向上させるため,次元の正規化や圧縮の手法を導入する.クラスタリングの結果に基づき最終的に各話者のモデルを構築し,これを用いて話者識別を行うことで話者インデキシングを実現する.実際の討論音声を用いた実験の結果,97.1%のインデキシング精度を得た.また,このインデキシング結果に基づいて話者適応を施した音響モデルにより音声認識を行い,単語誤り率を6%削減することができた.
社団法人電子情報通信学会の論文
2004-02-01

著者

関連論文

もっと見る

スポンサーリンク