大規模XML文書の検索と格納技術の開発
スポンサーリンク
概要
- 論文の詳細を見る
本稿では、大量の構造化文書に対する検索要求を処理する方式として、構造検索に対応した全文検索機能並びに木構造の形で格納したXML文書の部分取得機能を用いる手法について提案する。本手法では、文書の構造とテキストに対する2種類のインデックス、並びにXMLを木構造で格納する格納部を用いる。本方式の処理速度は文書件数よりは対象文書の複雑さに依存する。最良の場合には従来の項目検索と同等の性能となるため通常の文書検索との親和性が高い。最悪の場合には検索項目1つが文書に含まれるパスの数だけ展開されるため、構造を指定した検索に対する性能は質問文次第となる。実験では、1文書が30程度のタグを含む複雑なXML文書200 MBに対して、文書のルート以下に単語が含まれるという性能上最悪となる検索式を投入しても秒間17質問文の処理が可能という実用的な性能が得られた。
- 一般社団法人情報処理学会の論文
- 2001-03-14
著者
-
小櫻 文彦
富士通研究所
-
井形 伸之
(株)富士通研究所ITメディア研究所
-
小機 文彦
(株)富士通研究所
-
山根 康男
富士通研究所ドキュメント研究部
-
難波 功
富士通研究所
-
小櫻 文彦
富士通株式会社
-
井形 伸之
富士通研究所
-
山根 康男
富士通研究所
関連論文
- 8.研究用データセット:攻撃元データ編 : ナレッジマネジメントツールによるマルウェア挙動の見える化(マルウェア)
- 規則的球配置と方向に基づく近似を特徴とする多次元インデクス方式
- バイオ文献活用基盤としてのXML検索技術 (特集 ライフサイエンス)
- 利用者による調節が可能な高速日本語形態素解析
- セマンティックグループウェアWorkWare++とKnowWho検索への応用(テキストマイニングの応用(1))
- 質問応答事例検索のための談話構造の認定
- オブジェクト指向知識ベース管理システムJasmineにおけるコンパイラ
- 分散データベースシステムRDB/DVにおけるリカバリ方式
- 画像の類似検索におけるマルチベクトル特徴空間方式とEarth Mover's Distance方式の比較(セッション4 : 情報検索)
- 画像の類似検索におけるマルチベクトル特徴空間方式とEarth Mover's Distance方式の比較(セッション4 : 情報検索)
- カテゴリマッチング技術に基づくオントロジーアラインメント問題への取り組み
- 拡張関係データベースエンジンXRDBの性能評価
- 拡張関係データベースエンジンXRDBのシステム・アーキテクチャ
- クラウドにおけるデータ秘匿化および追跡技術(自律分散ネットワーク,P2Pネットワーク,オーバーレイネットワーク,マルチキャスト,セッション管理,インターネットトラヒック,コンテンツ配信,コンテンツ流通,コンテンツセキュリティ及び一般)
- サポートセンタ・オペレータの業務スキル自動推定について(AHPほか)
- 大規模XML文書の検索と格納技術の開発
- 知識流通に適用可能なXML文書管理技術の開発 (小特集 ナレッジウェア)
- サポート業務効率化のための分析技術 (特集 研究開発最前線)
- O-016 サポートセンタにおけるオペレータの業務スキル自動推定とシミュレーション(O.情報システム)
- 大規模な構造化文書データベースにおけるインデクシングと検索の手法
- 大規模な構造化文書データベースにおけるインデクシングと検索の手法
- 全文検索エンジン (情報検索の新潮流)
- 全文検索システムによるXML文書の検索 (INFOSTAシンポジウム'99)
- 全文検索システムによるXML文書の検索
- 高速テキスト検索エンジン
- 大容量情報全文検索システム
- 大容量情報全文検索エンジンTeraβ (特集:研究開発最前線--マルチメディア/パ-ソナル/ネットワ-ク時代への対応)