文字認識誤り指摘のための形態素解析の適用性検討
スポンサーリンク
概要
- 論文の詳細を見る
印刷文書を対象とした文字認識後処理として,既存の形態素解析プログラムMAJESTYを利用して文字認識誤りを指摘する方法を検討した.本検討ではMAJESTYによる認識誤り指摘精度を確認するため,科学技術論文を対象に,文字認識率に対する認識誤り指摘精度の変動を調べた.さらに,MAJESTYでは指摘できなかった認識誤り文字を分析し,MAJESTYによる認識誤り指摘手法の問題点を明らかにした.問題点の改善策として,誤りである可能性が高い文字を認識誤りとする方法と,形態素解析が抽出した未登録語の出現パターンを利用して認識誤り単語を指摘する方法を実施した.その結果,認識誤りの指摘精度を大幅に改善できることを確認した.
- 一般社団法人情報処理学会の論文
- 1994-07-21
著者
関連論文
- 日本語情報検索システム評価用テストコレクション BMIR-J2
- 情報検索システム評価用ベンチマークVer.1.0(BMIR-J1)について (メディア統合および環境統合のための高機能データベースシステム、および一般)
- 特集「日本におけるオペレーティングシステム研究の動向」の編集にあたって (日本におけるオペレーティングシステム研究の動向)
- シソーラス掲載語の重要性を考慮した文書スコアリング
- フルテキストと抽出キーワードを利用した情報検索
- フルテキストと抽出キーワードを利用した情報検索
- 単語出現共起関係を用いた文書重要度付与の検討
- 分散環境における情報検索を支援するデータベース選択方式
- 異種分散環境におけるエージェント指向型情報検索システム : データベース選択方式の評価
- シソーラスと決定木学習アルゴリズムによる Rocchio feedback の高精度化
- テキストのフォーマットと単語の範囲内重要度を利用したキーワード抽出
- 単語共起と語の部分一致を利用したキーワード抽出法の検討
- 特徴的表現を利用した特許抄録作成法の検討
- 単語の文書頻度を利用した決定木学習アルゴリズムによるrelevance feedbackの高精度化
- 単語の重要度に基づくテキストの要約
- 情報検索、情報抽出テストコレクション
- 冨田一般化LRパーザを用いた情報抽出
- 文字認識誤り指摘のための形態素解析の適用性検討
- 冨田一般化LRパーザを用いた情報抽出
- パターンマッチング手法による名称特定処理の有効性の検討
- パターンマッチング手法による名称特定処理の有効性の検討
- OCRの認識結果に対する文字認識後処理方式の検討
- 放談会 : 『情報管理』は雲に乗って
- 住所の文字認識結果に対する後処理方式の検討