XML文書変換を目的としたセル分類およびセル変形に基づく表構造解析(文書・文字メディアの認識・理解, 一般)

概要

論文の詳細を見る
本論文では, 紙媒体の表をXMLスキーマやDTDに基づいたXML文書に変換する新しい方法を提案する.本方式ではまず, 文書画像に変換した表から罫線で区切られたデータフィールドをセル特徴として抽出する.次に, 各セル特徴をあらかじめ定めた5つのタイプに分類することによりセル配置が不規則な表を識別すると共に, 特定のセルに対して変形処理を実施することにより規則正しいセル配置を形成する.さらに, 規則正しいセルの並びから行(row)構造を抽出することにより階層的な表構造を構成し, 得られた表構造をDOMツリーで記述する.さらに, XMLパーザーを用いてDOMツリーをXHTMLに基づいたピボットXML文書(中間XML文書)に変換したあと, ピボットXML文書に対して情報抽出処理と構造変換処理を適用することによりターゲットXML文書を生成する.科学技術文献, 医薬品添付文書, マニュアル, 約款, 法令集など実際の文書に含まれる表を用いた実験でXML文書変換性能を評価したところ良好な結果を得ることができた.
社団法人電子情報通信学会の論文
2005-03-11