単語頻度の期待値に基づく未知語の自動収集

スポンサーリンク

概要

論文の詳細を見る
本稿では、単語の出現頻度の期待値に基づいて日本語テキストから未知語を収集する方法を報告する。まず頑健なN-best単語分割プログラムを用いて日本語テキスト中の単語候補の頻度の期待値を求め、次に頻度の期待値が予め決めた閾値以下である単語候補を取り除くことにより未知語候補の集合を得る。本手法における単語頻度の期待値の計算法は、一般化前向き後向きアルゴリズムの近似計算法に相当する。人手により単語分割された470万語のEDRコーパスで単語分割プログラムを訓練し、未知語率2.1%の試験文(1000文)でテストしたところ、未知語収集の精度は再現率43.7%, 適合率52.3%であった。
一般社団法人情報処理学会の論文
1996-11-18

著者

関連論文

もっと見る

スポンサーリンク