F0パターンに基づく講義音声の文単位へのセグメンテーション

スポンサーリンク

概要

論文の詳細を見る
講演や講義の音声をディジタルアーカイブとして保存するシステムを構築しているが, 再生時の利便性から, 音声を文単位にセグメンテーションしておくことが望ましい. しかし, 講義のような自発性の高い音声では, 単純にポーズ長に基づいて文境界を抽出することは困難である. そこで, 基本周波数(F0)パターンに基づいて文境界を抽出する手法を実装・評価した. 本手法は, ポーズ長のみで抽出する手法に比べて高い性能を示し, 実際の講義音声に対しても再現率60%で適合率55%, 再現率78%で適合率50%となった. 誤りの大半はフィラー(間投語)によるものであったので, F0パターンを用いてフィラーを取り除く処理を導入したところ, 適合率が約5%向上した. セグメンテーションされた音声に対して人間の主観的な評価を行い, 本手法の有効性を確認した. 本手法は雑音等にも頑健であり, しきい値設定のためのデータは2〜3分で十分である.
社団法人電子情報通信学会の論文
1999-05-21

著者

関連論文

もっと見る

スポンサーリンク