統計的手法による分かち書き境界の獲得

スポンサーリンク

概要

論文の詳細を見る
本論文では統計的手法によって,分かち書きされていない日本語テキストから分かち書き境界を自動抽出する方法について述べる.分かち書きされていない日本語テキストから単語を得るためには,形態素解析が必要であるが,従来は単語辞書と統語規則を用いた処理をしている.このため新しい表現の獲得や暖昧性の解消などの問題があった.本手法ではNグラムの統計情報(頻度,頻度の期待値や分散)を用いる. まず,Nグラムの統計情報から文字列の正規化頻度を計算し,次にそれを用いて語の境界を獲得する.これによって字面処理だけによって,多くの分かち書き境界の認定が可能になった.EDR日本語コーパスを用いた実験の結果,得られた境界と形態素境界の適合率は82・68%,再現率は63.89%であった.
社団法人電子情報通信学会の論文
1996-03-22

著者

関連論文

もっと見る

スポンサーリンク