CRFを用いた学術論文OCRテキストからの自動書誌要素抽出

概要

論文の詳細を見る
文献データベースは学術論文を所蔵する電子図書館では不可欠である.しかし紙媒体の論文からの書誌要素抽出は,OCR などの画像処理技術を利用してもその抽出コストは高い.そこで本稿では,OCR 処理された学術論文から書誌要素を自動的に抽出する手法を提案する.提案手法では,まず OCR の文書画像処理によって得られた矩形テキスト領域に対して,あらかじめ定義した書誌要素を表すラベルを付与する.さらに,必要に応じて矩形テキスト領域内の各文字に対してもラベル付けを行う.この文字へのラベル付けによって,複数の著者名が記述された矩形テキスト領域から各著者の名前を抽出することができる.提案手法では,矩形テキスト領域や文字へのラベル付けに Conditional Random Fields(CRF) を使用する.言語の異なる 2 種類の論文誌を用いて実験を行ったところ,矩形領域へのラベル付けは,和文誌で 97.56%,英文誌で 97.27% の精度であった.また文字へのラベル付けによる和文誌の和文著書名領域からの各著者名の抽出精度は 99% 以上を達成した.
一般社団法人情報処理学会の論文
2009-06-29