テキストの自動分類に関わる諸要素
スポンサーリンク
概要
- 論文の詳細を見る
テキストの分類は, 既存のカテゴリにテキストを割り当てることであり, 様々な手続きを必要とする。本論文では, テキストの自動分類研究を再検討し将来の方向性について述べた。自動分類を構成する要素は, テキスト構造, データ量, 特徴素単位の定義, 特徴素集合の決定, カテゴリ表現, テキスト表現, 類似度計算, 分類先決定方法, 評価である。各要素や要素間の関係について, 既往研究から明らかにした。例えば, テキスト構造と特徴素集合の決定は自動分類全体に大きな影響を与えること, カテゴリ表現と類似度計算は相互に深く関わっていること, 特徴素単位の定義は外的要因の影響を受けるが, その定義は自動分類全体に大きな影響を与えることなどが明らかになった。将来の方向性として, Webページを対象にした自動分類を想定した。テキスト構造と特徴素集合の決定には新たな問題が生じ, テキスト構造は以前に比べてより重要な要素となることを予想した。
- 日本図書館情報学会の論文
- 2003-12-25
著者
関連論文
- プーリング手法を用いた学術論文の自動判別実験(セッション2:情報のラベリングと知識の獲得,学生チャレンジ特集)
- 目次と帯を用いた図書の自動分類(情報検索・分類,テーマ : 「デジタルアーカイブの活用(応用)」および一般)
- 日本語テキストの自動分類のための特徴素抽出手法の比較
- 人の価値観を表すカテゴリを対象にした複数カテゴリへの自動分類の試み
- プーリング手法を用いた学術論文の自動判別実験(セッション2:情報のラベリングと知識の獲得,学生チャレンジ特集)
- オープンアクセスを想定した日本語学術論文ファイルの自動判定(デジタルアーカイブの応用,テーマ : 「デジタルアーカイブの活用(応用)」および一般)
- 目次と帯を用いた図書の自動分類(情報検索・分類,テーマ : 「デジタルアーカイブの活用(応用)」および一般)
- オープンアクセスを想定した日本語学術論文ファイルの自動判定(デジタルアーカイブの応用,テーマ : 「デジタルアーカイブの活用(応用)」および一般)
- Webページの有用性に関する分析 : 特徴語の抽出と被リンク数の比較(Webマイニング)
- WWWにおける有用性の高いページの特定手法について
- 日本十進分類法と基本件名標目の相互マッピングの試み
- テキスト自動分類の概要(情報のフィルタリング)
- 日本語学術論文PDFファイルの自動判定
- テキストの自動分類に関わる諸要素
- WWW上のOPACにおける既知事項検索の諸問題
- NTCIR-3 WEB : Web 検索のための評価ワークショップ(電子文書処理)
- Web検索のための評価ワークショップに適したシステム評価手法
- テキストの自動分類の要素分析的アプローチ
- 九州大学大学院ライブラリーサイエンス専攻の概要と附属図書館との連携 (特集 図書館職員の研修)
- 深層ウェブの実態とその要因 : 機関リポジトリに登録された文献を用いた調査
- テキストの自動分類をめぐる現況 (特集 分類新時代)