統計的手法によるテキストからの重要語抽出メカニズム
スポンサーリンク
概要
- 論文の詳細を見る
本論文では字面処理によって,テキストから重要語(キーワード)を自動抽出する方法について述べる.日本語の場合まず文章から単語を得るために,形態素解析が必要であるが,形態素解析には未知語や曖昧性の解消などの問題があり,これを解決するために,従来は複雑な規則や人間がメンテナンスしなければならない辞書が必要であった.本手法はNグラムの頻度情報を用いた完全な字面処理になっている.その手順では(1)まずNグラム頻度情報を使って重要な文字列を抽出し,(2)次にその中から無意味な文字列を排除する.実験ではこの手法が未知語や複合語の範囲を正しく識別し,抽出精度を向上させることを確認した.
- 一般社団法人情報処理学会の論文
- 1995-09-14
著者
関連論文
- 日本語情報検索システム評価用テストコレクションの構築
- 日本語情報検索システム評価用テストコレクション BMIR-J2
- 統計的手法による辞書未登録語の獲得法
- マウスによる仮想折り紙の対話的操作のための計算モデルとインタフェース(コンピュータグラフィックス,インタラクションの理解とデザイン)
- 情報検索システム評価用ベンチマークVer.1.0(BMIR-J1)について (メディア統合および環境統合のための高機能データベースシステム、および一般)
- 日本語情報検索システムのためのベンチマークの構築
- 情報検索システム評価用データベースの構築の提案
- 検索対象テキストDB自動決定法の検討
- データ項目名等の意味解析による概念モデルの作成法
- 日本語情報検索システム評価用テストコレクションの構築 (『1998年情報学シンポジウム』プログラム--WWW情報検索・電子図書館・セキュリティ・著作権・マルチメディア情報流通・感性情報処理) -- ((セッション7)情報検索と知識獲得)