講演の書き起こしに対する統計的手法を用いた文体の整形

スポンサーリンク

概要

論文の詳細を見る
講演音声のような話し言葉の書き起こしや音声認識結果には、話し言葉特有の表現が数多く含まれて二次利用しにくいため、文章として適した形態に整形する必要がある。本稿では、統計的機械翻訳の考え方に基づいて講演の書き起こしを自動的に整形された文章に変換する方法を提案する。本研究で扱う処理は、フィラーの削除、句点の挿入、助詞の挿入、書き言葉表現への変換、文体の統一である。これらの処理を統合的に行うようにビームサーチを導入した。以上の手法により、実際の講演の書き起こしを整形された文章に変換し、講演録編集者によって一次整形されたものを正解として、句点の挿入、助詞の挿入、文体の統一に関して定量的な評価を行った。
一般社団法人情報処理学会の論文
2002-05-24

著者

関連論文

もっと見る

スポンサーリンク