類似テキスト検索のための多重トピックテキストモデル

スポンサーリンク

概要

論文の詳細を見る
本論文では,確率モデルに基づく新たなテキスト検索法を提案する.テキスト検索ではテキスト間の類似度の定義が重要となる.従来法ではテキストの単語頻度ベクトルに基づいた類似度が用いられている為,テキストの内容を十分反映した検索が困難である.提案法では,あるトピック体系で分類されたテキスト群を用いて学習した確率モデルで,テキストのトピック度ベクトルを推定し,トピック度ベクトル空間で類似度が定義される.それゆえ,従来法に比べより内容的に類似したテキスト検索が可能となる.トピック度ベクトルの推定アルゴリズムは単純,かつ解の大域的最適性が理論保証される.また,検索結果に対する妥当な定量的評価基準を新たに導入し,実際のwebページを用いた検索評価実験を通して提案法の従来法に対する顕著な優位性を示す.
2003-11-15

著者

関連論文

もっと見る

スポンサーリンク