木直列化を用いたXMLデータの類似結合(夏のデータベースワークショップ2007(データ工学,一般))
スポンサーリンク
概要
- 論文の詳細を見る
本稿では,XMLデータの木構造をノードの系列に直列化する手法を用い,系列同士の類似度によってXMLデータの類似結合を行う手法を提案する.近年のXMLデータの急速な普及により,多くのデータがXML形式で記述されるようになっている.その結果,類似した内容であるにも関わらず,異なるマークアップ語彙や異なる構造を持つXMLデータが増加している.これらの相補的な情報を統合するための手段の一つが類似結合(similarity join)である.本研究で提案する類似結合の概要は以下のとおりである.1)結合しようとする二つのXMLデータを,ノードの系列として直列化する,2)得られた系列から,構造および内容に関して意味的にまとまりのある部分系列を抽出する,3)部分系列同士のテキスト情報を用いて,マッチする可能性のある部分系列のペアを抽出する,4)得られたペアから,構造的に類似している系列を抽出する.テキスト同士の類似性を比較するために,確率的な集合要素判定手法であるbloomフィルタを用いる.また,系列化されたXML部分木の構造の類似性を判定するために編集類似度を用いる.
- 一般社団法人情報処理学会の論文
- 2007-07-02
著者
関連論文
- レコードデータに対するリッジ問合せ(セッション7b:ストリーム・スカイライン)
- XMLデータを対象としたファセット検索インタフェースの生成(セッション1,XML応用技術特集および一般)
- Webページを対象としたXMLデータ抽出手法の検討
- XMLデータベース技術概説(XMLデータベース)
- Webページを対象としたXMLデータ抽出手法の評価
- Webページを対象としたXMLデータ抽出手法の評価
- 木直列化を用いたXMLデータの類似結合(夏のデータベースワークショップ2007(データ工学,一般))
- 木直列化を用いたXMLデータの類似結合(XML (1),夏のデータベースワークショップ2007(データ工学,一般))