統計的手法によるテキストからのキーワード抽出法
スポンサーリンク
概要
- 論文の詳細を見る
本論文では簡単な字面処理によって,文章からキーワード候補を自動抽出する方法について述べる.日本語のキーワードの自動抽出法では文章から単語を得るために,形態素解析が必要であるが,形態素解析には未知語や曖昧性の解消などの問題があり,これを解決するために,従来は複雑な規則や人手によって作成される辞書が必要であった.本手法では完全な字面処理からのアプローチとしてNグラムの頻度情報を用いる.まず,Nグラム頻度情報から重要な文字列を抽出し,次にその中から無意味な文字列を排除する.これによって簡単な字面処理だけによって,キーワード候補の抽出が可能になった.また実験の拡大,再現も容易である.
- 社団法人電子情報通信学会の論文
- 1995-05-26
著者
関連論文
- 日本語情報検索システム評価用テストコレクションの構築
- 日本語情報検索システム評価用テストコレクション BMIR-J2
- 統計的手法による辞書未登録語の獲得法
- データ項目名等の意味解析による概念モデルの作成法
- 双方向マルチメディア通信可能なWWW上でのCAIシステム
- 統計的手法によるテキストからの重要語抽出メカニズム
- 検索者とサーバーの協調によるWWW情報検索サーバーの性能改善に関する考察
- 正規化頻度による形態素境界の推定
- 正規化頻度による形態素境界の推定
- 統計的手法による分かち書き境界の獲得
- 統計的手法によるテキストからのキーワード抽出法
- スキーマ統合におけるスキーマ要素間の類似性発見手法
- データ項目名等の意味解析による既存のDB中の実体型抽出アルゴリズム