Web 上の多言語テキストデータからのラッパー自動生成
スポンサーリンク
概要
- 論文の詳細を見る
本稿では、半構造化テキストデータからコンテンツ部分を抽出するラッパーを自動生成するシステムを提案する。入力として、テキストデータ以外にコンテンツを囲む区切り文字の最初と最後に現われ得る文字の集合を与えるものとする。入力テキストに対して同種のコンテンツ(レコード) が複数回現われるものと仮定するほかは、特に背景知識等は不要であり、入力に対し全自動でラッパーの生成を行なう。システムは、コンテンツの種類(フィールド) ごとに左と右区切り文字のペアを出力する。半構造化テキストデータを単なる文字列として扱うので、入力は任意のマークアップ言語や自然言語で書かれていて構わない。様々な言語で書かれたWeb ページを対象とした実験によりその有効性を示す。マークアップ言語はXML とHTML で、4 つの自然言語で書かれており、検索機能により動的に生成されたものもあれば、静的なページもある。本システムでは、XML やHTML のコメントやタグの属性なども通常の文字として扱うが、ある実験では、通常のコンテンツ部分だけでなく、コメントやタグの内部から有用な情報を抽出することもできた。また、タグにマルチバイト文字が含まれているようなデータでも問題なく扱える。We present a wrapper generation system to extract contents of semi-structured documents.In addition to input documents, our system receives a set of symbols with which a delimiterstring must begin or end. We assume that input documents contain instances of a record. Wrappergeneration is done automatically. The system outputs a set of pairs of left and right delimiterseach of which surrounds instances of a field. Our system treats semi-structured documents just asstrings so that it does not depend on markup and natural languages. We show experimental resultson text files markuped in HTML or XML. Contents of them are written in four natural languages.Some of them are dynamic pages, that is, produced by a search facility, and the others are staticpages. In addition to usual contents, some generated wrappers extract useful information hiddenin comments or tags which are ignored by other wrapper generation algorithms. Some generateddelimiters contain whitespaces or multibyte characters.
- 2003-03-00
論文 | ランダム
- 6. 食道内転移あるいは多発癌のある食道癌(第26回食道疾患研究会)
- 長野県における腎移植の現況について : 第93回信州地方会
- フッ素含有溶液中において高耐食性を有するチタン合金
- Sub-chronische Glomerulonephritisの1例 : 透析と剖検について : 第66回信州地方会
- 足底に生じた肥満細胞腫の1例