古文書OCRのための文字切り出し
スポンサーリンク
概要
- 論文の詳細を見る
本稿では、古文書OCRの前処理として必須である、つづき文字を切り出す手法について提案する。提案する方法では、まず簡単なフィルタ処理(色に基づき文字の候補となるピクセルを抽出するカラーフィルタ、ゴマ塩雑音などの除去フィルタ、カラー画像を白黒階調さらに2値化するフィルタ)により、雑音の少ない良好な2値画像を作成する。次に周辺分布からページごとの平均文字サイズ、縦書き・横書きに関するレイアウト情報を抽出する。文字はこれらの情報に基づいてピクセルから組み立てる。つまり隣接するピクセルを集めて文字のセグメントを生成し、次いで近傍のセグメントを集めて文字あるいはつづき文学を生成する。ううき文字の切り出しは文字輪郭上の相対する凹部分を結ぶ線に沿って行う。本法の特徴は、適切な凹部分を画像の多重解像度解析に基づいて発見するところにある。
- 一般社団法人情報処理学会の論文
- 2002-07-26
著者
関連論文
- 健診における医療情報革命
- 健診情報のための電子的交換規約 : Health Data Markup Language (HDML)(XMLによる情報システム)
- 時間情報を持つ人文科学DBの統合検索のためのユーザインタフェースの検討
- 健診データ転送規約HDML
- 地域研究コンソーシアム情報資源共有化研究会 第2回海外調査報告
- 地域研究コンソーシアム情報資源共有化研究会第2回海外調査報告
- 地域情報学の目指すところ--地域研究におけるGISの応用 (特集 地域情報学の創出)
- データベース共有におけるデータマッピングの事例的研究
- 古文書翻刻支援システム開発(HCR)プロジェクト報告(2)
- 古文書翻刻支援システム開発プロジェクト報告 : (1)-プロジェクト概要-
- 人文科学のための地理情報共有システムの設計
- メタデータによるマルチメディアデータ統合の試み
- コンピュータ民族学, (社)情報処理学会(編), 杉田繁治(著):"情報フロンティアシリーズ(18)コンピュータ民族学", 共立出版(株), (1997-11);B6判, 定価(本体1, 500+税)
- 医療と電子図書館 (特別企画 IT時代のヘルスリテラシー) -- (第2部 IT技術とヘルスリテラシー向上の試み)
- 研究資源共有化の研究 (新年特集号 共同研究の成果とゆくえ(続編)) -- (共同研究の現在)
- 地震史料のXMLデータ作成 (総特集 地震史料の校訂とデータベース化--日本の古代・中世を中心に)
- Z39.50とメタデータによる研究機関間連携(失われゆく情報の復元・保存技術 : 人文科学における情報処理(文献学・データベース共有・史科編纂))
- 古文書OCRのための文字切り出し
- 国文学研究支援のためのSGML/XMSデータシステム : 国文学データ共有のための標準化(人文科学における情報知識処理)
- 文学研究のためのデータベースシステムの諸問題--文学データ共有のための標準化 (特集 コンピュータによる日本語研究の新展開)
- 古典OCRのための文字切り出しについて
- 国文学と電子資料館
- 国文学と電子資料館
- 国文学研究画像データベースから文字認識へ (特集 挑戦 古文書OCR)
- 時空間情報の利用と展開 (第4回 人間文化研究情報資源共有化研究会報告)
- 時空間システムの成果と今後の展開 (第1回 人間文化研究情報資源共有化研究会報告)
- 国文学電子資料館システム--マルチメディアデータベースへのSGMLの適用
- 国文学研究と国文研ホ-ムペ-ジ (特集 インタ-ネットと学術情報)
- 国文学研究資料館蔵マイクロ資料目録デ-タベ-スの再構築
- 国文学情報システム (特集 学術情報システム)
- 古典原本のイメ-ジノイズ除去に関する一考察