HTML Table情報のXMLによる統合

スポンサーリンク

概要

論文の詳細を見る
本稿では、複数のHTMLページに存在し、内容的には類似していても、構造の全くバラバラな表情報を、全て一つの共通のXMLの表構造に変換し、統合する手法について提案する。これにより、独立して存在する表の情報を一覧表とし、一見して、各々の特徴を比較することができる。今回は、その中でも、各表の内容を解析することにより、「表構造から情報を抽出」し、「それらを意味によって分類」するというタスクに焦点を当てている。情報の意味による分類方法として、本稿では、(I)Support Vector Machineによる分類、(II)隠れマルコフモデルを用いた表構造推定による分類、という2通りの手法を試み、分類の精度の比較を行った。
一般社団法人情報処理学会の論文
2002-07-17

著者

関連論文

もっと見る

スポンサーリンク