OCR誤認識後処理の効率化 : 補単語抽出方法と動詞活用処理を中心に
スポンサーリンク
概要
- 論文の詳細を見る
OCRによる一般文書読み取りにおいては,形態素解析等の自然言語処理を用いて誤認識の修正を行う後処理技術が重要である(サーベイ参照).文字認識後処理のための形態素解析では,各文字に対して複数出力される候補文字を組み合わせて辞書引きし,抽出された単語候補群から最尤単語列を抽出する.辞書引きと最尤単語列抽出手続きは後処理時間の大半を占めるため,その効率化はOCR後処理における重要な課題である.本報では,単語の先頭2文字をキーとする辞書引き,および,動詞活用処理のための新しい辞書見出しを用いて,後処理精度を改善しつつ,辞書引きと最尤単語列抽出をあわせた効率を大幅に向上できることを示す.
- 社団法人情報処理学会の論文
- 1994-09-20
著者
-
藤澤 浩道
(株)日立製作所中央研究所
-
藤澤 浩道
日立製作所中央研究所
-
久光 徹
(株)日立製作所中央研究所
-
嶋 好博
(株)日立製作所中央研究所
-
丸川 勝美
(株)日立製作所中央研究所
-
久光 徹
日立製作所基礎研究所
-
丸川 勝美
日立製作所中央研究所
-
嶋 好博
日立製作所中央研究所
-
新田 義彦
日立製作所基礎研究所
-
丸川 勝美
株式会社日立製作所中央研究所
-
久光 徹
日立製作所
-
丸川 勝美
日立製作所
-
新田 義彦
日本大学理工学部
関連論文
- 情報のら旋形成長を支援するコミュニケーション形電子図書館
- ハイパーメディア共有アーキテクチャ
- ハイパーメディア共有アーキテクチャにおけるバージョン管理方式
- 仮想個人図書館の構築を支援するユーザインタフェースの開発
- 医療用語のコード化手法 : 部分文字列のテキスト近似被覆問題(専門用語)
- 96 テンプレート入力方式の読影レポート作成システムの開発と試用(医療情報管理 RIS・情報支援)
- 対話的文書検索における文書クラスタリングの役割
- D-11-93 文書画像に対する適応型 2 値化の一手法
- I-85 帳票画像からの下線抽出の一手法(画像レイアウト解析,I.画像認識・メディア理解)
- D-12-60 帳票画像からの点線抽出の一手法
- 刊行物目次解析のための書誌情報表現の分析
- 文字と交差した罫線の除去方式の一提案
- 細分化クラスタ法によるパタンマッチングの高精度化
- 逐次型階層的クラスタリングによる大量学習の一手法
- 認識機能の出力あいまい性を許容した情報検索手法の一検討 : 認識誤り特性に着目した検索手法の分析評価
- 表罫線の交差部におけるかすれ補正方式の一提案
- 表記規則を持った数字列の一認識方法
- 文書認識と全文検索の融合技術に関する実験的検討
- 構造特徴による前分類を用いたニューラルネットワークのパターン認識能力の検証
- 端点対接続型かすれ修復方法の手書き線図形認識への適用
- 表記規則を持つ数字文字列の認識における文字列チェック機能の一検討
- 手書き線図形のかすれ修復方法の一提案
- OCR誤認識後処理の効率化 : 補単語抽出方法と動詞活用処理を中心に
- 手書き漢字住所認識のためのエラー修正アルゴリズム
- 棒状図形に傾き検出のラン符号による高速化の一手法
- オートマトン型単語照合の姓名文字列への適用
- 文書の見出し記号の解析に基づく木状論理構造生成の一手法
- 形態素解析プログラムANIMAの設計と評価
- 対話的文書検索における文書クラスタリングの役割
- 一般語との曖昧性を持つタンパク質名の自動検出(情報抽出・単語分類)(テーマ:「Webマイニングによる情報活動と自然言語処理」その他一般)
- 一般語との曖昧性を持つタンパク質名の自動検出(情報抽出・単語分類)(テーマ:「Webマイニングによる情報活用と自然言語処理」その他一般)
- D-12-70 テロップ認識のための領域配置情報を用いた文字領域抽出(D-12. パターン認識・メディア理解,一般セッション)
- 企業研究者から見た文字認識の進歩と課題と将来(文字とドキュメントの認識・理解)
- 企業研究者から見た文字認識の進歩と課題と将来(文字とドキュメントの認識・理解))
- H-043 図形輪郭除去によるテロップ文字領域抽出(H分野:画像認識・メディア理解)
- 2P-3 タームのrepresentativenessを測るための新指標
- タームのrepresentativenessを測る
- 手話自動翻訳システムにおけるパターン認識・合成
- トライ辞書を用いた語彙情報駆動型の印刷地名単語列認識方式(画像処理,画像パターン認識)
- チェックライタ金額文字列認識の一手法
- 金額文字列認識の後処理のためのボトムアップ型構文解析の一手法
- 単語探索型の文字列認識方式
- 超並列計算機の文字認識辞書構築処理への応用
- 医療用語のコード化手法 : 部分文字列のテキスト近似被覆問題(専門用語)
- 自由語検索のための高速文字列検索方式
- 自由語検索のための同義語・異表記展開方式
- 自由語による全文検索のためのテキストサーチマシンTSM-I
- TD-1-6 DualNAVIによる連想的テキストアクセス
- 組み合わせ的確率モデルに基づく特徴単語選択方法 : 超幾何分布の応用
- 類似例の存在を否定的な要因として用いる重要バイグラムの収集支援方法
- 書き換え規則と文脈情報を用いた形態素解析後処理
- 書き換え規則と文脈情報を用いた形態素解析後処理
- 統計量とルールを組み合わせて有用な括弧表現を抽出する手法
- 括弧表現から統計量を用いて有用情報を抽出する手法
- 辞書と共起情報を用いた新聞記事からの人名獲得
- ハイパーメディア共有アーキテクチャ
- 日本語情報処理の諸相 : 日本語情報検索技術の系譜(日本の情報処理技術の足跡)
- 「仮想個人図書館」と個人情報環境
- 3. 情報検索における自然言語処理 ( 自然言語処理技術の応用)
- Bayesルールを用いた宛名記載領域抽出手法(文字とドキュメントの認識・理解)
- Bayesルールを用いた宛名記載領域抽出手法(文字とドキュメントの認識・理解))
- ベイズルールを用いた周辺情報統合による手書き漢数字の文字切出し手法(画像処理,画像パターン認識)
- 中国における文字認識の現状と将来
- 手書き文字認識における学習型2次識別関数
- 手書き文字認識における学習型2次識別関数
- 多重仮説方式を用いた宛名記載領域抽出手法
- 住所表示番号と棟・部屋番号の連続表記に対する照合方式
- D-12-19 縦横混在表記に対する住所表示番号照合方式
- 表記パターン知識を用いた住所表示番号照合方式
- 手書き接触漢字切出しに関する検討
- Bayesルールを用いた手書き漢数字の文字切出し手法
- 7-b) 連想統合による医学・生物学知識の活用ソリューション(企業におけるバイオNLPへの取り組み)(ポストゲノム時代に高まるバイオ自然言語処理への期待 : バイオ自然言語処理最新事情)
- 文書理解における論理構造抽出の一手法
- 6)文書理解の一方式とその応用(視覚情報研究会)
- 文書理解の一方式とその応用
- 知的ファイリングモデルシステムの開発(その3) : 自動ファイリングのための文書理解の一方式
- 知的ファイリングモデルシステムの開発(その1) : システムの設計思想と実現方法
- 編集にあたって(ゲノム情報科学 : 観測技術の進展を支えるインフォマティクス)
- 文書ブラウジングにおけるヒューマンインターフェース
- 知的ファイリングモデルシステムの開発(その4) : 検索効率向上のためのイメージ表示方法
- 知的ファイリングモデルシステムの開発(その2) : 自由語検索における異表記、異表現解消法
- 電子図書館システムの技術動向
- 編集にあたって(使いやすくなった自然言語処理のフリーソフト : 知っておきたいツールの中身)
- 条件付き確率最大法を利用した日本語形態素解析
- 編集にあたって(テキスト自動要約 : 知的活動支援の基本技術として)
- 文書走査を用いた複合名詞解析
- SDAIRに見る文書解析と情報検索に関する研究状況
- SDAIRに見る文書解析と情報検索に関する研究状況
- オートマトン型単語照合の高速化手法
- 文書走査を用いた複合名詞解析について
- 日本語形態素解析における効率的な動詞活用処理
- 日本語形態素解析における効率的な動詞活用処理
- 接続コスト最小法による日本語形態素解析
- 漢字仮名混じり文形態素解析における非サ変動詞の分割単位設定について
- 知的ファイリングシステムのビジュアルインタフェース
- 部分パタ-ンマッチングにおける標準パタ-ンの選択方式
- 部分画像の出現確率を用いた高速化パタ-ンマッチング方式
- ランに対する座標演算に基づく2値画像の高速回転のための一手法
- 電子部品の捺印パタ-ン欠陥検出手法の一考察
- 部分画像の並列切出し照合方式に基づく捺印パタ-ンの欠陥検出