文章内容を反映したキーワードの重要度付け
スポンサーリンク
概要
- 論文の詳細を見る
近年、電子図書館やWorld-Wide Webに代表されるネットワーク環境でのハイパーテキストシステムが注目を集めている。この様な情報の洪水をもたらす環境においては、如何に自分にとって興味のある情報に容易にアクセスできるかが鍵であり、大量の情報を重要度順に並べて提示することが重要である。検索結果を重要度順に並べるには、検索結果に対して検索要求との照合の度合を表す重要度を計算する必要がある。この検索結果の重要度は、一般的にはベクタースペースモデルに代表されるように、個々の文書に重み(重要度)付きのキーワードを付け、これを元に計算される。 キーワードへの重み付けとして従来からよく行なわれているのは、キーワードにそのキーワードの検索語としての識別能力を表す値(term-descrimination valueやx^2値等)を与えることである。これらは、簡単に言えば、ある文書集合内で頻出するキーワードは検索時の識別能力が低く、めったに現れないキーワードは識別能力が高いということを利用した指標である。これらの指標は検索時には適切なものであるが、これらをそのまま文書内容を反映したキーワードの重要度を表すと考えるのには幾つかの点で不都合がある。その理由の一つは、キーワードの重要度は必ずしも文書集合内での出現頻度により決まるとはいえないということである。頻度が高くてなおかつやはり重要であることもあるし、頻度が低いからといって重要であるとは限らない。二つめの理由は、キーワードの重要度は本来その文書内の情報だけで判断できるはずであるということである。すなわち、文書の内容によりキーワードの重要度は決定できるはずである。これは、計算機での処理を考えた場合でも、いちいち文書集合を対象に処理をするよりも、一文書内の処理だけで済む点で有利である。この様な考察から、一文書内の処理でキーワードに重要度を付与しようという研究がある。それらは、基本的にキーワードの表層上の特徴(出現位置、それが用いられた表現等)を基にキーワードに重要度を付与するものである。本論文でも基本的にこの一文書内での表層的な種々の特徴からキーワードに重要度を付与するという手法を採用しているが、自動的に作成した抄録中にある文(重要文)に含まれるかどうかという特徴を導入し、実験により重要文を考慮することの有効性を確かめた。
- 一般社団法人情報処理学会の論文
- 1996-03-06
著者
関連論文
- 制約伝搬アルゴリズムを用いた日本語文の解析
- UIMA : 非構造情報処理アーキテクチャ(研究のツールボックス 第6回)
- コールセンターにおける目的を持ったビジネス会話のモデリングと会話マイニングへの応用
- 木構造変換を利用した評判分析手法
- パターンベース翻訳システムPalmTreeの文脈処理
- SLP・NL合同セッション「ここまでできるぞ音声/言語処理技術」 : 言語編 : 6 パターンベース英日翻訳システムPalmTree
- パターンベース翻訳システム : PalmTree
- 電子図書館IV : ナビゲーションシステムプロトタイプ
- 電子図書館II : 基本設計
- 電子図書館I : 将来像
- 個人適応型情報検索システム : 個人の興味を学習する階層記憶モデルとその協調的フィルタリングへの適用
- 2N-3 係り受け関係を用いたCFG構文解析の枝刈手法
- Web文書に対する言語処理を援助するタグセット
- 用例ベース処理を用いた翻訳システム : PalmTree II
- 文章内容を反映したキーワードの重要度付け
- 日英機械翻訳システムJETSにおける翻訳パターン : 生成支援環境
- 用例翻訳の為の対訳例からの自動的翻訳パターン抽出の一手法
- Example-Based Machine Translationの問題点に関する考察
- 類似度駆動翻訳システムのための構造変換手法
- 対話的日本語解析環境 : JAWB