古典OCRのための文字切り出しについて
スポンサーリンク
概要
- 論文の詳細を見る
本稿では続き文字を分割するための新しい手法について述べる。本法では、まず前処理として、スキャナで取り込まれたカラー画像に対して幾つかのフィルター処理(カラーフィルタ、雑音除去、白黒濃淡化、2値化)を施す。次に、2値画像を構成するピクセルの周辺度数分布から、縦書きあるいは横書きの判断と、平均的な文字の大きさを推定する。文字はピクセルから構成されると考えた。つまり連接するピクセルから文字の部品となるセグメントを生成し、次に近傍のセグメントを集めて文字の候補(文字か幾つかの文字が連続したもの)とする。連続している文字を切断する基本的な考え方は、文字の開始地点から平均的な文字の大きさだけ離れた位置にある輪郭上の凹部と、その反対側の輪郭上に存在する凹部を結ぶ線を文字の切断線とするものである。本法の特色は、対象とする言語に特有の認識を利用しない点にある。
- 一般社団法人情報処理学会の論文
- 2000-07-21
著者
関連論文
- 健診における医療情報革命
- 健診情報のための電子的交換規約 : Health Data Markup Language (HDML)(XMLによる情報システム)
- 時間情報を持つ人文科学DBの統合検索のためのユーザインタフェースの検討
- 健診データ転送規約HDML
- 地域研究コンソーシアム情報資源共有化研究会 第2回海外調査報告
- 地域研究コンソーシアム情報資源共有化研究会第2回海外調査報告
- 地域情報学の目指すところ--地域研究におけるGISの応用 (特集 地域情報学の創出)
- データベース共有におけるデータマッピングの事例的研究
- 古文書翻刻支援システム開発(HCR)プロジェクト報告(2)
- 古文書翻刻支援システム開発プロジェクト報告 : (1)-プロジェクト概要-
- 人文科学のための地理情報共有システムの設計
- メタデータによるマルチメディアデータ統合の試み
- コンピュータ民族学, (社)情報処理学会(編), 杉田繁治(著):"情報フロンティアシリーズ(18)コンピュータ民族学", 共立出版(株), (1997-11);B6判, 定価(本体1, 500+税)
- 医療と電子図書館 (特別企画 IT時代のヘルスリテラシー) -- (第2部 IT技術とヘルスリテラシー向上の試み)
- 研究資源共有化の研究 (新年特集号 共同研究の成果とゆくえ(続編)) -- (共同研究の現在)
- 地震史料のXMLデータ作成 (総特集 地震史料の校訂とデータベース化--日本の古代・中世を中心に)
- Z39.50とメタデータによる研究機関間連携(失われゆく情報の復元・保存技術 : 人文科学における情報処理(文献学・データベース共有・史科編纂))
- 古文書OCRのための文字切り出し
- 国文学研究支援のためのSGML/XMSデータシステム : 国文学データ共有のための標準化(人文科学における情報知識処理)
- 文学研究のためのデータベースシステムの諸問題--文学データ共有のための標準化 (特集 コンピュータによる日本語研究の新展開)
- 古典OCRのための文字切り出しについて
- 国文学と電子資料館
- 国文学と電子資料館
- 国文学研究画像データベースから文字認識へ (特集 挑戦 古文書OCR)
- 時空間情報の利用と展開 (第4回 人間文化研究情報資源共有化研究会報告)
- 時空間システムの成果と今後の展開 (第1回 人間文化研究情報資源共有化研究会報告)
- 国文学電子資料館システム--マルチメディアデータベースへのSGMLの適用
- 国文学研究と国文研ホ-ムペ-ジ (特集 インタ-ネットと学術情報)
- 国文学研究資料館蔵マイクロ資料目録デ-タベ-スの再構築
- 国文学情報システム (特集 学術情報システム)
- 古典原本のイメ-ジノイズ除去に関する一考察