確率モデルによる主題の自動抽出
スポンサーリンク
概要
- 論文の詳細を見る
本稿では日本語テキストにおける主題の自動抽出に向けて、新しい手法を提案する。本稿では、主題抽出を一種の文書分類(Text Categorization)と捉え、従来の文書分類の技術を応用した確率的な主題抽出方式を提案する。また、本稿では、格助詞を利用し主題抽出における文法情報の効果について検討する。CD-ROM版日本経済新聞(1992年1〜6月)の42,401件の記事をデータとして利用し、格情報あり、格情報なしの条件下で主題抽出の実験を行った。また、評価の基準としてベースラインを導入した。実験の結果では、格情報を利用したモデルが他の場合に比べ優位であることが確認された。しかし、本方式は記事が長くなるにつれ精度が急速に低下するなどの問題が見られ、改善の余地があることも分った。
- 一般社団法人情報処理学会の論文
- 1995-07-20
著者
関連論文
- ゼロ代名詞の照応に関するセグメント仮説の制約について
- ゼロ代名詞の照応に及ぼす格助詞の影響について : 「ハ」・「ガ」の場合
- 人間の重要文判定に基づいた自動要約の試み
- 人間の重要文判定に基づいた自動要約の試み
- テキスト構造を利用した主題の推定について
- テキスト構造を利用した主題の推定について
- Hearst, M. A. and Plaunt, C. : Subtopic Structuring for Full-Length Document Access, Proc.of ACM-SIGIR '93, pp.59-68 (1993).
- 確率モデルによる主題の自動抽出
- 確率モデルによる主題の自動抽出
- 日本語テキストの統計的構造化について