講演に対する読点の複数アノテーションに基づく自動挿入

スポンサーリンク

概要

論文の詳細を見る
音声認識による講演などの書き起こしの可読性と有用性を高めるためには,句読点を自動的に挿入することが不可欠である.本論文では,単語・係り受け・ポーズの情報を素性とする条件付き確率場(Conditional Random Fields, CRF)に基づく読点の自動挿入について述べる.読点の挿入箇所は人により大きく異なるため,我々は複数のアノテータによる句読点ラベルを利用して,アノテータ個別および共通の挿入傾向をモデル化した.そして,これらを投票と補間の枠組みにより組み合わせる.『日本語話し言葉コーパス』(CSJ)の講演を用いた評価実験では,モデルの組合せにより,それぞれのアノテータの読点と,すべてのアノテータに共通する読点について高い挿入精度が得られることが示された.
2013-02-15

著者

関連論文

もっと見る

スポンサーリンク