擬似頻度法 : n-gram索引のための高速な日本語文書のランキング検索法

スポンサーリンク

概要

論文の詳細を見る
日本語を対象とする文書検索ではn-gram(n文字組)索引が広く使用されているが, 文書のランキング検索を効率的に実現することは難しい.ランキングのための文書スコアを計算する際, 検索語の頻度情報をn-gram索引から合成するのに要する処理量が多いからである.本論文では, 頻度情報を近似することでこの問題を解決する擬似頻度法を提案する.スコア計算に使用する頻度情報には, 検索語を含む文書数である文書頻度, 及びスコア計算対象文書における検索の出現回数である文書内頻度の二つがあるので, 文書頻度を近似する擬似文書頻度法と文書内頻度を近似する擬似文書内頻度法を示す.更に, 両者を組み合わせることで検索をよりいっそう高速化できることも示す.NTCIRIを用いた評価により, これら手法の有効性が確認できた.
2000-10-25

著者

関連論文

もっと見る

スポンサーリンク