OCRの文字切出し誤りを許容した文書検索システムの開発(文字とドキュメントの認識・理解)
スポンサーリンク
概要
- 論文の詳細を見る
電子文書に関する法制度の整備に伴い,紙文書を電子イメージ化した文書画像に対して保存・閲覧・検索ができる文書処理システムヘの要求が高まっている.しかし,従来のようにOCRを利用して文書画像検索を行うと,文字切出し・文字認識誤りに起因する検索漏れ・検索誤りにより精度が低下する問題がある.この問題に対して,我々はOCRの出力を多重仮説化することを骨子とする文書画像検索方式を提案する.本方式は,1)OCRの出力形態を切出・文字認識誤りを許容した読取仮説へと拡張し,2)文法駆動型DPを用いて誤切出・誤不読にロバストなキーワード抽出を行い,3)文字配置の検定を行うことで検索誤りを低減することを特徴とする.手書き,活字が混在する文書画像を対象とした検索実験により本方式の有効性を確認した.
- 社団法人電子情報通信学会の論文
- 2004-02-12
著者
関連論文
- 医療用語のコード化手法 : 部分文字列のテキスト近似被覆問題(専門用語)
- I-85 帳票画像からの下線抽出の一手法(画像レイアウト解析,I.画像認識・メディア理解)
- D-12-60 帳票画像からの点線抽出の一手法
- 刊行物目次解析のための書誌情報表現の分析
- 文字と交差した罫線の除去方式の一提案
- 細分化クラスタ法によるパタンマッチングの高精度化
- 逐次型階層的クラスタリングによる大量学習の一手法
- 認識機能の出力あいまい性を許容した情報検索手法の一検討 : 認識誤り特性に着目した検索手法の分析評価
- 表罫線の交差部におけるかすれ補正方式の一提案
- 表記規則を持った数字列の一認識方法
- 文書認識と全文検索の融合技術に関する実験的検討
- 端点対接続型かすれ修復方法の手書き線図形認識への適用
- 表記規則を持つ数字文字列の認識における文字列チェック機能の一検討
- 手書き線図形のかすれ修復方法の一提案
- OCR誤認識後処理の効率化 : 補単語抽出方法と動詞活用処理を中心に
- 手書き漢字住所認識のためのエラー修正アルゴリズム
- 棒状図形に傾き検出のラン符号による高速化の一手法
- オートマトン型単語照合の姓名文字列への適用
- D-12-70 テロップ認識のための領域配置情報を用いた文字領域抽出(D-12. パターン認識・メディア理解,一般セッション)
- 文書画像の輪郭演算によるスタンプ検知手法(テーマセッション,文字・文書の認識・理解)
- H-043 図形輪郭除去によるテロップ文字領域抽出(H分野:画像認識・メディア理解)
- 勾配特徴量のモーメントを用いた文字正規化法(テーマセッション6,複合現実感のためのパターン認識・理解)
- 文書テンプレート再現のためのPDF文書構造化(膨大なデータから学ぶもの)
- 文書テンプレート再現のためのPDF文書構造化(テーマ,膨大なデータから学ぶもの)
- I_047 文書構造要約化による情報提供システム(I分野:画像認識・メディア理解)
- 帳票読取りにおける印字ずれデータと読取り枠の対応付け方式(テーマセッション,文字認識・文書理解)
- 帳票読取りにおける印字ずれデータと読取り枠の対応付け方式(テーマセッション,文字認識・文書理解)
- 医療用語のコード化手法 : 部分文字列のテキスト近似被覆問題(専門用語)
- 4D-3 レイアウト解析による書誌情報の抽出(画像処理・認識(2),一般セッション,人工知能と認知科学,情報処理学会創立50周年記念)
- 回帰的遷移ネットワークを用いた文字経路探索方式の開発(テーマセッション,文字・文書の認識・理解)
- 適応型画像ベクトル照合に基づく金券識別(テーマセッション,文字認識・文書理解)
- 適応型画像ベクトル照合に基づく金券識別(テーマセッション,文字認識・文書理解)
- 言語情報を利用したオンライン枠なし手書き日本語文認識(スポーツ・運動映像のパターン認識・理解)
- I-027 多重仮説検定を用いた割書・振り分け行に対応した文字行抽出方式(I.画像認識・メディア理解)
- OCRの文字切出し誤りを許容した文書検索システムの開発(文字とドキュメントの認識・理解)
- OCRの文字切出し誤りを許容した文書検索システムの開発(文字とドキュメントの認識・理解)
- D-12-36 印刷活字帳票における低品質文字列読取手法
- 表記パターン知識を用いた住所表示番号照合方式
- H-012 仮説検証型アプローチを用いた定義レス帳票認識技術(H分野:画像認識・メディア理解,一般論文)
- 手書き数字列認識における文字列レベルでの識別器学習(文字とドキュメントの認識・理解)
- 手書き数字列認識における文字列レベルでの識別器学習 : 文字とドキュメントの認識・理解)
- オートマトン型単語照合の高速化手法
- 正規化協調型の文字線曲率特徴抽出方法と活字文字認識への適用(テーマセッション,文字・文書の認識と理解)
- 文書テンプレート再現のためのPDF文書構造化
- 文書テンプレート再現のためのPDF文書構造化
- RD-002 多重仮説文書構造ネットワークを用いたデータ抽出方式の開発(D分野:データベース)