目次情報を用いた書籍の文書画像構造解析
スポンサーリンク
概要
- 論文の詳細を見る
これまで,文字認識などのメディア変換や文書画像のレイアウト解析を中心に多くの文書画像処理技術の検討が行われてきた.一方,図書館の蔵書をハイパーテキスト化する場合,文書画像のレイアウト解析だけではなく,文書の論理構造分析にも注目すべきである.書籍の場合,目次は書籍の文書論理構造を最も忠実かつ簡潔に表しているものであり,この論理構造をベースに書籍の本文を分析した方が効率的であると考えられる.本論文は,目次情報を利用して文書画像を電子的な文書へ変換する新しい文書構造解析手法を提案する.これまで行われてきた手法は,事前に細部にわたり定義されたレイアウトモデルもしくはキーワードとのマッチングにより文書構造理解を行うものであった.これらの手法で問題となっているのは識別率の高いモデル作成法およびモデル構築の負担である.そこで本論文ではこれらの問題を解決するため,書籍それぞれの文書構造を簡潔かつ的確に表現している目次情報からモデルを作成し,これと文書画像とのマッチング処理により構造化処理を行う.これによりモデル作成の負担を軽減でき,かつ個々に付属した目次情報を利用するため汎用性も向上させることができる・実験の結果,書籍の論理構造である章節構造99%,見出しセッション94%,ヘッダ・フッタ・ページ番号構造100%など,高い識別率を得ることができた.最後に,本方式に基づいて,解析した文書画像をHTMLに変換する事例も紹介する.
- 社団法人情報処理学会の論文
- 2002-10-15
著者
-
林 俊成
東京外国語大学外国語学部
-
成田 誠之助
早稲田大学理工学部
-
成田 誠之助
早稲田大学コンピュータ・ネットワーク工学科
-
成田 誠之助
早稲田大学理工学部電気電子情報工学科
-
成田 誠之助
早稲田大学 理工学部 電気工学科
関連論文
- 書誌情報データベースにおける非ローマンアルファベット系言語の原綴り・翻字相互変換システム
- 非ローマンアルファベット系言語の原綴り・翻字相互変換システムの構築
- 非ローマンアルファベット系言語の原綴り・翻字相互変換システムの構築(セッション1: 言語情報・情報検索)
- 多言語対応・初級日本語e-Learning教材の開発
- 会話モジュール : TUFS多言語e-learningシステム会話教材開発 (TUFS言語モジュール)
- D-15-25 XML 手法を用いた E-learning 語学会話教材の開発手法
- 目次情報を用いた書籍の文書画像構造解析
- 書籍索引情報における文書画像構造解析手法
- 外国人日本語学習者向け漢字自動採点システム
- 外国人対象のペン入力漢字書き取り指導システムの試作
- マルチメディア環境における語学授業・自習支援システムEDLIN(Education Learning Instruction Network system)の開発および評価 (新しい学習環境の展開--研究の広がり)
- 書籍における文書画像構造解析手法
- 最小2乗法を用いた文字列傾き補正
- 文字枠コード法およびペリフェラルパターン法を用いたタイ語文字認識
- 字形認知を用いた漢字CAIシステム
- ベクトル情報を用いたオンライン手書き漢字指導システム
- 逆Drawingシステムの開発
- 複数ハイパーテキスト間におけるリンクシステム
- 離散事象並列シミュレーションにおける動的負荷均等化
- 待ち行列並列シミュレーションの一マッピング手法
- タイムワープ法を用いた離散事象並列シミュレータにおける仮想時刻の同調
- 待ち行列並列シミュレーションを用いた保守的手法の評価
- 離散事象型並列シミュレータの実性能評価
- ヌルメッセージ法を用いた待ち行列並列シミュレータの評価
- 主記憶共有マルチプロセッサシステム上でのマクロデータフロー処理の性能評価
- マルチプロセッサスーパーコンピュータ上でのFORTRANプログラムのマクロデータフロー処理
- ヒューマノイド : 人間形高度情報処理ロボット
- OSCAR上でのセルラ・ニューラル・ネットワーク・シミュレーションの並列処理手法
- OSCAR上での音声認識の並列処理手法
- 保守的同期アルゴリズムを用いた並列離散事象型シミュレーションにおける一考察
- マルチメディア環境における画像処理CALソフトウェアの開発
- 共有メモリ型マルチプロセッサシステム上でのFortran粗粒度タスク並列処理の性能評価
- 商用共有メモリ型マルチプロセッサシステム上でのマクロデータフロー処理の性能評価
- マルチグレイン並列化FORTRANコンパイラ
- ハイパーメディアのリンク作成支援機能
- ネットワークを利用した語学CAIシステムの構築
- マルチメディア環境における理工学向けCALソフトウェア開発
- 証明数・反証数を用いた反復深化法における複数経路並行探索の並列化(HPC-6 : 並列アプリケーション)
- 生ピアノの魅力
- バーチャルを楽しむ
- シミュレーション先読みによるPDESの実行効率向上
- シミュレーション先読みによるPDESの実行効率向上
- GAによる動的マッピングのPDESへの適用
- GAによる動的マッピングのPDESへの適用
- スマートサーチ:賢いメタ・サーチエンジンの開発
- 国際シンポジウムの開催
- マルチプロセッサシステム上でのプロセッサグループへの並列ジョブのスケジューリング手法
- 並列処理の電力系統解析への応用
- Viewの世紀
- 人間中心システムとハイパーメディア
- マルチプロセッサシステム上での回路シミュレーションの並列処理手法
- OSCAR上でのスパース行列直接解法の並列処理
- OSCAR上での直接法を用いた回路シミュレーションの並列処理
- 専用目的コンパイラ開発用並列化中間言語とその処理系
- 非ローマンアルファベット系言語の原綴り・翻字相互変換システムの構築(セッション1: 言語情報・情報検索)
- OSCAR上での電力潮流計算の並列処理
- Synchronous Conservative Algorithmを用いた離散事象並列シミュレーションにおける性能予測
- 領域分割法による静電界の並列有限要素解析
- ATMネットワーク並列シミュレータの構築
- 離散事象並列シミュレーションにおける保守的同期手法の評価
- 実用レベルのマルチグレインFORTRANコンパイラの開発
- SCAを用いた待ち行列並列シミュレーションにおけるマッピング指標
- マルチプロセッサシステム上での並列ジョブのスケジューリング手法の評価
- 離散事象並列シミュレーションにおける効率的なメッセージ送出則
- 文字認識の前処理としての角度補正
- 書籍の自動ハイパーテキスト化におけるリンク自動作成
- シミュレーション言語GPSSの並列処理におけるモデル分割法
- マッピングを考慮した待ち行列並列シミュレーションの性能測定
- 拡張性を考慮した画像検察システムGDbaseの開発
- OSCAR上でのFORTANプログラムの階層的マクロデータフロー処理手法
- OSCAR上でのインプリシット常微分方程式求解の並列手法のインプリメント
- 待ち行列並列シミュレーションのマッピング手法
- 学校教育におけるLANを利用したCAIシステムの開発--教育支援システム"EDLIN"の構築 (メディアと教育技術--宇都宮大学 1996年1月20日(土))
- ドイツ語CALシステムG-MUSEの長期利用評価 (メディアと教育技術--宇都宮大学 1996年1月20日(土))
- 大学教育におけるドイツ語CALシステム"G-MUSE"の開発 (メディアと教育技術--宇都宮大学 1996年1月20日(土))
- WABOT-2の統轄システム及び歌声トラッキングサブシステム
- 鍵盤楽器演奏ロボット“WABOT-2” (WAseda roBOT-2)
- 階層並列実行ジョブ間スケジューリング手法
- タイムクリティカル通信システムの標準化動向
- マルチプロセッサシステム上での非線形微分方程式の並列処理
- 複雑背景中からの文字領域の抽出
- 画像処理による飾り文字の復元
- 離散事象型並列シミュレーションにおけるマッピング手法
- OSCAR用デバッグシステム
- スタティック・マルチプロセッサ・スケジューリング・アルゴリズムを用いた常微分方程式求解の並列処理
- プロセスオ-トメ-ションにおけるライトサイジング
- 資格ブーム
- マクロデータフロー処理のマルチジョブ実行手法
- 字形認知に着目した漢字学習支援システムの構築と評価
- マクロデータフロー処理のためのジョブスケジューリング手法