統計的手法によるテキストからの重要語抽出メカニズム

スポンサーリンク

概要

論文の詳細を見る
本論文では字面処理によって,テキストから重要語(キーワード)を自動抽出する方法について述べる.日本語の場合まず文章から単語を得るために,形態素解析が必要であるが,形態素解析には未知語や曖昧性の解消などの問題があり,これを解決するために,従来は複雑な規則や人間がメンテナンスしなければならない辞書が必要であった.本手法はNグラムの頻度情報を用いた完全な字面処理になっている.その手順では(1)まずNグラム頻度情報を使って重要な文字列を抽出し,(2)次にその中から無意味な文字列を排除する.実験ではこの手法が未知語や複合語の範囲を正しく識別し,抽出精度を向上させることを確認した.
一般社団法人情報処理学会の論文
1995-09-14

著者

関連論文

もっと見る

スポンサーリンク