SAX-GTR : 高速XMLストリーム読み込み手法(XML 1)(夏のデータベースワークショップDBWS2004)
スポンサーリンク
概要
- 論文の詳細を見る
アプリケーションからXML文書を扱う仕組みは大きく分けて二つある.一つはDOMに代表されるXML木をメモリ上に展開するタイプの手法であり,もう一つはSAX等,XMLファイルを先頭からデータストリームとして読み込んでゆくタイプの手法である.前者は柔軟な処理を,後者は高速・低消費メモリを特徴としている.本論文では後者の手法に着目し,さらなる高速化に関する手法の提案を行う.具体的には,XML文書をその文書をSAXめイベントから成るストリーム単位に分解し二つのバイナリファイルに分解して保存する.一つのファイルにはイベント列の定義と走査するブログラムによって頻繁に利用される要素属性値が保存され,それ以外のデータはもう一つのファイルに保存する.前者のファイルはXMLファイルを走査する時に読み込まれ,後者はそこに保存された値が利用される時に読み込まれる.この仕組みによりデータ走査時に読み込むデータの絶対量を削減する事ができ,より高速にXMLストリームを読み込むことができる.本稿ではこのバイナリファイルのフォーマットを説明する.またXMLデータを自動でバイナリ化し,ユーザが提案手法の知識がなくとも, SAXパーサを用いて透過的にアクセス手法を提案する.さらにSAXパーサより高速に動作する事を実験により示す.
- 一般社団法人情報処理学会の論文
- 2004-07-13
著者
-
太田 学
岡山大学大学院自然科学研究科
-
片山 薫
東京都立大学大学院工学研究科
-
石川 博
東京都立大学大学院工学研究科
-
太田 学
東京都立大学大学院工学研究科
-
横山 昌平
静岡大学情報学部
-
太田 学
学術情報センター研究開発部
-
横山 昌平
東京都立大学大学院工学研究科
関連論文
- 地球科学への応用に向けたWikipedia上の時空間データ抽出と可視化(Webインタフェース/Wikipedia,e-Science及びData Intensive Science)
- GEO Grid : 地球観測グリッドの設計と実装(分散処理とシステムソフトウェア)
- 関係データベースを利用したXMLリポジトリのためのアクセス管理手法
- D-8-1 特定用途向け簡易Web検索システムの自動構築に向けて(D-8. 人工知能と知識処理,一般セッション)
- 多様性を考慮したWebブログマイニングの研究(ウェブ情報とデータベースに関して(ポスター講演))
- 単語の特徴量を考慮した検索結果クラスタに関する多視点融合型スニペットの構築(セッション8a:Web検索)
- センサネットワークを利用した省電力化のための人物誘導(セッション5c:セキュリティ・プライバシー)
- Webブラウザによる超高解像度可視化基盤の開発
- 検索質問と検索結果の変化を利用した先読み検索
- Web GISアプリケーションフレームワークrinzo.maの設計と応用
- 評価属性を考慮した評判情報の可視化
- Max Flowアルゴリズムを用いたWebページのクラスタリング方法とその評価
- 差異を意識したクラスタリングとその特徴量集約手法の検討(クラスタリング, 夏のデータベースワークショップDBWS2005)
- Max FlowアルゴリズムによるWebページのクラスタリング方法(Web検索, 夏のデータベースワークショップDBWS2005)
- 差異を意識したクラスタリングとその特徴量集約手法の検討(クラスタリング, 夏のデータベースワークショップ2005)
- Max FlowアルゴリズムによるWebページのクラスタリング方法(Web検索, 夏のデータベースワークショップ2005)
- 斜交基底を用いたメタ検索におけるランクリストの統合方法の提案(情報フィルタリング・情報要約, データ工学論文)
- 学術論文文書画像からのページレイアウトに依存しない自動書誌要素抽出
- 検索エンジンを用いた動詞名詞コロケーションに基づく英文動詞誤りの検出と修正
- 検索エンジンを用いた英文前置詞誤り修正のための検索フレーズ生成法
- 文化間差異理解のためのバイリンガル検索結果の可視化の一手法
- SearchLife:単語の特徴量を考慮した多視点クラスタリング検索エンジン
- Wikipedia記事中の意見文クラスタリング
- 文書クラスタリングによる話題の絞込みを利用した先読み検索
- 要因検索による因果関係ネットワークの構築
- D-024 ユーザの理解度に基づく検索結果の動的な個人化クラスタリング(データベース,一般論文)
- D-044 Blogクラスタリングのための関連ページ選択方法(D分野:データベース)
- 1S-9 ブログ分析のための制約付きクラスタリングシステムの実装(ソーシャルWeb,学生セッション,データベースとメディア,情報処理学会創立50周年記念)
- 格文法を用いた複数文書融合手法(応用・事例2)(夏のデータベースワークショップDBWS2004)
- 格文法を用いた複数文書融合手法(セッション9C : 応用・事例2)(夏のデータベースワークショップ : DBWS2004)
- 格文法を用いた複数文書融合手法
- 撮影状況メタデータと画像低次特微量を用いた画像検索結果提示手法の検討(一般,「グリーンAI」及び一般)
- Web資源を利用した学術論文閲覧支援システム
- CRFを用いた学術論文OCRテキストからの自動書誌要素抽出
- ブログの相互関係性を考慮したブログ記事分類手法の検討
- 階層的クラスタリングを利用したメタ検索エンジンの提案 : METAL
- 階層的クラスタリングを利用したメタ検索エンジンの提案 : METAL
- Tiled Displayを用いた大規模センシングデータの可視化システム(センサデータ処理及び一般,センサデータ処理,ストリームデータベース,及び一般)
- D-12-48 様々な学術論文誌OCRテキストからの書誌要素抽出(D-12.パターン認識・メディア理解A(パターンメディアの認識・理解・生成),一般セッション)
- 4S-8 撮影状況メタデータと画像低次特徴量を用いた画像検索結果提示システムの実装(マルチメディア,学生セッション,データベースとメディア,情報処理学会創立50周年記念)
- 多視点融合型クラスタリング検索エンジンの開発と評価について
- 多様な視点からのブログ記事マイニングへの制約付きクラスタリングの適用
- 多視点融合型クラスタリング検索エンジンの開発と評価について
- 多様な視点からのブログ記事マイニングへの制約付きクラスタリングの適用
- Web 資源を利用した学術論文閲覧支援システム
- 4P-3 英文曖昧検索へのHMMの適用とその評価
- OCR認識誤りの学習方法について
- 英文曖昧検索における拡張検索文字列数の削減
- 認識誤りを含む和文テキストにおける全文検索手法
- 英文認識誤り特性に基づいた曖昧検索手法
- 文字誤りを含む英文検索手法
- 認識誤りを含むテキストにおける検索手法 (システム分野)
- 統計的手法による文字誤りテキスト検索
- 誤りを含むテキストにおける検索の一手法
- 創発的XMLの提案(XML, 夏のデータベースワークショップDBWS2005)
- 創発的XMLの提案(XML, 夏のデータベースワークショップ2005)
- 検索結果の推移の可視化による検索支援(ウェブ情報とデータベースに関して(ポスター講演))
- グラフの連結性に基づくMessmerらの部分グラフ同型判定手法の改良
- 関係データベース上の階層関係を持つ妥当なXMLビューの設計法
- P2Pにおける静的負荷分散方式の提案(P2P)(夏のデータベースワークショップDBWS2004)
- SAX-GTR : 高速XMLストリーム読み込み手法(XML 1)(夏のデータベースワークショップDBWS2004)
- P2Pにおける静的負荷分散方式の提案(セッション10B : P2P)(夏のデータベースワークショップ : DBWS2004)
- SAX-GTR : 高速XMLストリーム読み込み手法(セッション3B : XML1)(夏のデータベースワークショップ : DBWS2004)
- 画像の類似検索におけるマルチベクトル特徴空間方式とEarth Mover's Distance方式の比較(セッション4 : 情報検索)
- 画像の類似検索におけるマルチベクトル特徴空間方式とEarth Mover's Distance方式の比較(セッション4 : 情報検索)
- XML文書管理におけるブランチを有するバージョン系列のための関係データベース構成法(XMLとデータベース)
- D-4-5 クラスタリング型 Web 検索エンジンの評価に関する一考察
- 編集にあたって
- 特集「情報融合」に向けて
- 編集にあたって
- 編集にあたって
- 編集にあたって
- 編集にあたって
- 特集「情報融合」に向けて
- 編集にあたって
- 画像検索結果のクラスタリングを目的とした類似画像からのメタデータ推定手法の検討 (人工知能と知識処理)
- D-8-4 ウェブ上の類似画像を用いたメタデータの推定と画像検索結果提示への適用(D-8.人工知能と知識処理,一般セッション)
- 編集にあたって(「情報処理学会論文誌 : データベース(電子情報通信学会データ工学研究専門委員会共同編集)」)
- 電子情報通信学会データ工学研究専門委員会による「情報処理学会論文誌 : データベース」への共同編集参加開始について(「情報処理学会論文誌 : データベース(電子情報通信学会データ工学研究専門委員会共同編集)」)
- 編集にあたって
- 電子情報通信学会データ工学研究専門委員会による「情報処理学会論文誌:データベース」への共同編集参加開始について
- 検索エンジンを用いた英文前置詞誤りの自動検出と修正
- ユーザの評価極性付きレビュー分析に基づく未評価レビューの極性分類
- 衛星画像とWeb情報の統合的な利活用手法の提案(e-ScienceとData Intensive Science,e-ScienceとData Intensive Science及び一般)
- Web2.0におけるJavaScriptコードのモジュール化とマッシュアップの枠組み
- ブランチ機能付き版管理に適した木構造のラベリング手法
- エンドユーザ指向のXML問い合わせ方式
- エンドユーザ指向のXML問い合わせ方式
- 画像検索結果のクラスタリングを目的とした類似画像からのメタデータ推定手法の検討(「Webインテリジェンス」及び一般)
- 特定評価属性の関連属性自動抽出による評価表現辞書の生成
- 検索エンジンを用いた英文動詞誤り検出システム
- CRFによる和英文の参考文献文字列からの自動書誌要素抽出
- PS-024-7 miRNAアレイ解析による大腸癌肝転移機構(PS-024 大腸 基礎2(バイオマーカー),第112回日本外科学会定期学術集会)
- VD-026-4 食道再建術におけるICG蛍光血管造影を用いた術中血流評価の有用性(VD-026 ビデオセッション(26)食道 手術手技,第112回日本外科学会定期学術集会)
- SF-067-4 GIST治療個別化へ向けたバイオマーカーの探索(SF-067 サージカルフォーラム(67)食道 基礎-6,第112回日本外科学会定期学術集会)
- 文脈的なつながりを考慮したツイート群の効果的な抽出・提示手法の実現
- 高解像度フォトモザイク生成のための並列分散画像検索手法(マルチメディアDB,データ工学と情報マネジメント論文)
- インターネットビジネスをモデルから理解する : e-ビジネスモデル入門
- XMLに基づくEビジネスモデルの記述言語について
- CRFによる和英文の参考文献文字列からの自動書誌要素抽出(情報抽出と情報検索,ビッグデータとソーシャルコンピューティング,及び一般)