図書目録データベースにおける近似索引技法を用いた冗長性除去の高速化
スポンサーリンク
概要
- 論文の詳細を見る
重複レコードの除去とは,データベースにおける同一の内容を持つ重複したレコードを一つにまとめ,冗長性を除去することである.これは,記憶容量の削減と検索効率の向上に有効である.そのため,重複レコードの除去に関して多くの研究が行なわれている.しかし,データ作成時のデータ入力の誤りや記法の不統一による記載のゆらぎを持つデータベースに対しては,従来,研究されてきたような高速な除去アルゴリズムは直接には適用できない.そこで本稿では,レコードの近似的同一性を考えた場合に適用可能な高速な索引技法を提案する.この技法は,索引として故意に衝突を起こすハッシュ関数と,索引技法によって構成される.図書目録データを対象として実験を行ない.有効性を実証する.
- 1995-09-20