情報検索システムにおける文書参照ファイルの効率的構成
スポンサーリンク
概要
- 論文の詳細を見る
情報検索システムのキーワード転置ファイルには,索引の見出し語(キーワード)の内容を格納したファイルがあり,これを文書参照ファイルということにする.見出し語の内容は,文書番号あるいは見出し語の生起位置の線形リストであり,この長さの分布は非常に偏っている.文書参照ファイルにおいて,長短リストを同形式で記憶し,2次記憶アクセス回数を減らすためにブロックサイズを大きくとると,低頻度キーワードのために非常に大きな無駄領域が生じる.本稿では,英文科学技術抄録文に関して,個々の低頻度キーワードの増加は予測できないが,生起回数が同一なものをまとめると,群として増加が予測できることを利用して,低頻度キーワードリストを生起回数ごとに群として管理する方法を提案した.この方法によって無駄領域を大きく減少させることが可能である.
- 一般社団法人情報処理学会の論文
- 1995-06-15
著者
関連論文
- 英文科学技術抄録文における名詞の決定
- 英文科学技術文における被修飾名詞の決定
- 英文科学技術文における名詞句の決定について
- 科学技術用語の英日翻訳規則
- 英文CISGの格構造
- 英文科学技術抄録文からのオントロジー自動作成の試み
- 科学技術用語オントロジーの自動作成
- 英文科学技術文における成句について
- 英文科学技術文における前置詞を伴う動詞の統語構造
- 高能率2次文献情報検索システムの設計
- 情報検索システムにおける文書参照ファイルの効率的構成
- SeePによる科学ファクトデータベースシステム
- 英文科学技術文における基本名詞句の構造
- 英文科学技術用語の形態と統語
- Patterson, D. W.: Introduction to Artificial Intelligence and Expert Systems, Prentice Hall (1990).
- Gottward, S. : Fuzzy Sets and Fuzzy Logic, Wieweg & Sohn (1993).
- Seepを使った科学ファクトデータベースシステム
- 英文科学技術文献抄録文における動詞の決定について
- 英文科学技術抄録文における高頻度主題記述動詞の統語情報
- EDR電子化辞書の検索システム