NLC2000-17 全文検索における英語接辞処理の評価
スポンサーリンク
概要
- 論文の詳細を見る
英語文書の検索における接辞処理(stemming)の検索精度への影響については、過去の研究において様々な評価実験が試みられている。TRECのようなテストコレクションを用いた評価実験では、接辞処理を行なわない場合との比較では、全体としてある程度の効果は得られるが、効果の度合はクエリーによってばらつきが大きく、著しく精度を下げる場合もあると指摘されている。索引語に対して接辞処理を適用する場合には、過度な正規化による悪影響が避けられる程度にすることが望ましい。我々は、索引語を正規化する際に適当な処理対象を検証するため、接辞処理の対象を以下の4段階に分けて、TREC-7およびTREC-8の課題(adhoc task)を用いて検索精度への影響を評価した。1.屈折形の関連付け(e.g.fertilized/fertilize)2.最小語幹を除く派生形の関連付け(e.g.fertilization/fertilize/fertile)3.最小語幹を含む派生形の関連付け(e.g.fertilize/fertile/fertility)4.異表記の関連付け(e.g.fertilize/fertilise)その結果、大幅な精度低下の殆どは最小語幹を含む派生形の関連付けの段階で生じ、その他の段階では、一部のクエリーを除いて大きな弊害は生じず、ほぼ一貫して効果が得られることを確認した。
- 社団法人電子情報通信学会の論文
- 2000-07-12