認識機能の出力あいまい性を許容した情報検索手法の一検討 : 認識誤り特性に着目した検索手法の分析評価
スポンサーリンク
概要
- 論文の詳細を見る
紙の世界と電子的な世界との掛け橋となる文書認識と, 文書検索を融合する新しい技術の一つの解として, 「文書認識の認識誤りを考慮して検索できる全文検索」が挙げられる. 本論文では, 誤り特性に着目し, 認識結果のあいまい性を許容し検索する二つの手法を示し, 1,083文書(約40万字)のテキストに対し印字品質の異なる2種類の認識結果(計2,166文書, 約80万字)を生成して検索精度を測定することで, 両手法が認識と検索とを融合する技術であることを示す. まず, 検索キー展開型は, 誤り特性「誤りは類似文字が原因である」により, 類似文字集合を用い類似文字を検索キーの各文字に追加し, 検索キーを展開し, 認識誤りと柔軟なマッチングを行う. そして, 複数認識候補型は, 誤り特性「正解を複数候補中に含む率は高い」により, 候補文字を絞り込むことで候補のより少ない範囲で累積正解率を高め, 不要な検索ノイズを低減させ, これを利用して検索漏れを低減させる. 実験の結果, 両手法が認識と検索とを融合させる技術であり, 特に, 複数認識候補型の場合, 通常印字品質に対しrecallのエラーが76.1%, 低印字品質に対し84.9%低減することを確認した.
- 社団法人電子情報通信学会の論文
- 1996-05-25
著者
-
藤澤 浩道
(株)日立製作所中央研究所
-
嶋 好博
(株)日立製作所中央研究所
-
丸川 勝美
(株)日立製作所中央研究所
-
丸川 勝美
株式会社日立製作所中央研究所
-
藤澤 浩道
(株)日立製作所
-
丸川 勝美
(株)日立製作所 中央研究所
関連論文
- 情報のら旋形成長を支援するコミュニケーション形電子図書館
- ハイパーメディア共有アーキテクチャ
- ハイパーメディア共有アーキテクチャにおけるバージョン管理方式
- 仮想個人図書館の構築を支援するユーザインタフェースの開発
- D-11-93 文書画像に対する適応型 2 値化の一手法
- I-85 帳票画像からの下線抽出の一手法(画像レイアウト解析,I.画像認識・メディア理解)
- D-12-60 帳票画像からの点線抽出の一手法
- 刊行物目次解析のための書誌情報表現の分析
- 文字と交差した罫線の除去方式の一提案
- 細分化クラスタ法によるパタンマッチングの高精度化
- 逐次型階層的クラスタリングによる大量学習の一手法
- 認識機能の出力あいまい性を許容した情報検索手法の一検討 : 認識誤り特性に着目した検索手法の分析評価
- 表罫線の交差部におけるかすれ補正方式の一提案
- 表記規則を持った数字列の一認識方法
- 文書認識と全文検索の融合技術に関する実験的検討
- 構造特徴による前分類を用いたニューラルネットワークのパターン認識能力の検証
- 端点対接続型かすれ修復方法の手書き線図形認識への適用
- 表記規則を持つ数字文字列の認識における文字列チェック機能の一検討
- 手書き線図形のかすれ修復方法の一提案
- OCR誤認識後処理の効率化 : 補単語抽出方法と動詞活用処理を中心に
- 手書き漢字住所認識のためのエラー修正アルゴリズム
- 棒状図形に傾き検出のラン符号による高速化の一手法
- オートマトン型単語照合の姓名文字列への適用
- 文書の見出し記号の解析に基づく木状論理構造生成の一手法
- D-12-70 テロップ認識のための領域配置情報を用いた文字領域抽出(D-12. パターン認識・メディア理解,一般セッション)
- H-043 図形輪郭除去によるテロップ文字領域抽出(H分野:画像認識・メディア理解)
- 手話自動翻訳システムにおけるパターン認識・合成
- トライ辞書を用いた語彙情報駆動型の印刷地名単語列認識方式(画像処理,画像パターン認識)
- チェックライタ金額文字列認識の一手法
- 金額文字列認識の後処理のためのボトムアップ型構文解析の一手法
- 単語探索型の文字列認識方式
- 超並列計算機の文字認識辞書構築処理への応用
- 文書テンプレート再現のためのPDF文書構造化(膨大なデータから学ぶもの)
- 文書テンプレート再現のためのPDF文書構造化(テーマ,膨大なデータから学ぶもの)
- I_047 文書構造要約化による情報提供システム(I分野:画像認識・メディア理解)
- 帳票読取りにおける印字ずれデータと読取り枠の対応付け方式(テーマセッション,文字認識・文書理解)
- 帳票読取りにおける印字ずれデータと読取り枠の対応付け方式(テーマセッション,文字認識・文書理解)
- 自由語検索のための高速文字列検索方式
- 自由語検索のための同義語・異表記展開方式
- 自由語による全文検索のためのテキストサーチマシンTSM-I
- ハイパーメディア共有アーキテクチャ
- 適応型画像ベクトル照合に基づく金券識別(テーマセッション,文字認識・文書理解)
- 適応型画像ベクトル照合に基づく金券識別(テーマセッション,文字認識・文書理解)
- 言語情報を利用したオンライン枠なし手書き日本語文認識(スポーツ・運動映像のパターン認識・理解)
- OCRの文字切出し誤りを許容した文書検索システムの開発(文字とドキュメントの認識・理解)
- OCRの文字切出し誤りを許容した文書検索システムの開発(文字とドキュメントの認識・理解)
- D-12-36 印刷活字帳票における低品質文字列読取手法
- 日本語情報処理の諸相 : 日本語情報検索技術の系譜(日本の情報処理技術の足跡)
- 「仮想個人図書館」と個人情報環境
- 3. 情報検索における自然言語処理 ( 自然言語処理技術の応用)
- Bayesルールを用いた宛名記載領域抽出手法(文字とドキュメントの認識・理解)
- Bayesルールを用いた宛名記載領域抽出手法(文字とドキュメントの認識・理解))
- ベイズルールを用いた周辺情報統合による手書き漢数字の文字切出し手法(画像処理,画像パターン認識)
- 中国における文字認識の現状と将来
- 手書き文字認識における学習型2次識別関数
- 手書き文字認識における学習型2次識別関数
- 多重仮説方式を用いた宛名記載領域抽出手法
- 住所表示番号と棟・部屋番号の連続表記に対する照合方式
- D-12-19 縦横混在表記に対する住所表示番号照合方式
- 表記パターン知識を用いた住所表示番号照合方式
- 手書き接触漢字切出しに関する検討
- Bayesルールを用いた手書き漢数字の文字切出し手法
- 文書理解における論理構造抽出の一手法
- 6)文書理解の一方式とその応用(視覚情報研究会)
- 文書理解の一方式とその応用
- 知的ファイリングモデルシステムの開発(その3) : 自動ファイリングのための文書理解の一方式
- 知的ファイリングモデルシステムの開発(その1) : システムの設計思想と実現方法
- 文書ブラウジングにおけるヒューマンインターフェース
- 知的ファイリングモデルシステムの開発(その4) : 検索効率向上のためのイメージ表示方法
- 知的ファイリングモデルシステムの開発(その2) : 自由語検索における異表記、異表現解消法
- 電子図書館システムの技術動向
- 手書き数字列認識における文字列レベルでの識別器学習(文字とドキュメントの認識・理解)
- 手書き数字列認識における文字列レベルでの識別器学習 : 文字とドキュメントの認識・理解)
- SDAIRに見る文書解析と情報検索に関する研究状況
- SDAIRに見る文書解析と情報検索に関する研究状況
- オートマトン型単語照合の高速化手法
- 溝口理一郎著, 知の科学-オントロジー工学, 人工知能学会編集, 275頁, オーム社, 2005
- 知的ファイリングシステムのビジュアルインタフェース
- 部分パタ-ンマッチングにおける標準パタ-ンの選択方式
- 部分画像の出現確率を用いた高速化パタ-ンマッチング方式
- ランに対する座標演算に基づく2値画像の高速回転のための一手法
- 電子部品の捺印パタ-ン欠陥検出手法の一考察
- 部分画像の並列切出し照合方式に基づく捺印パタ-ンの欠陥検出
- 文書テンプレート再現のためのPDF文書構造化
- 文書テンプレート再現のためのPDF文書構造化