確率モデルによる主題の自動抽出

スポンサーリンク

概要

論文の詳細を見る
本稿では日本語テキストにおける主題の自動抽出に向けて、新しい手法を提案する。本稿では、主題抽出を一種の文書分類(Text Categorization)と捉え、従来の文書分類の技術を応用した確率的な主題抽出方式を提案する。また、本稿では、格助詞を利用し主題抽出における文法情報の効果について検討する。CD-ROM版日本経済新聞(1992年1〜6月)の42,401件の記事をデータとして利用し、格情報あり、格情報なしの条件下で主題抽出の実験を行った。また、評価の基準としてベースラインを導入した。実験の結果では、格情報を利用したモデルが他の場合に比べ優位であることが確認された。しかし、本方式は記事が長くなるにつれ精度が急速に低下するなどの問題が見られ、改善の余地があることも分った。
社団法人電子情報通信学会の論文
1995-07-20

著者

関連論文

スポンサーリンク