使えば使うほど賢くなる識別器(文字とドキュメントの認識・理解)
スポンサーリンク
概要
- 論文の詳細を見る
代表から外れたデータを学習させると,どんな識別器でも新データでは多くの誤認識が生じる。正解付けされた学習データを用いてOCRエンジンを再学習すれば,識別器の偏りと分散の両者、すなわち、誤認識率を減らすことが可能である。学習データを予め編集できない場合には、そのかわりに,識別器によって決められた(幾つかは誤りの可能性のある)不完全ラベルを識別器適応化に使うことになる。この判定駆動型の適応化は,それに関する理論的基礎は貧弱ではあるが、種々の実験でうまくいくことが実証されている。取り扱っているデータを一つの元から生じたサブセット(例えば、同一筆者や同一フォント種のセットなど)に分割できる場合には、識別器のパラメータをそれぞれのサブセット用に独立に適応させるべきである。しかしながら、例えば、郵便番号や小切手読取りのように、もし同じ元をもったサブセットのデータ数が少ない場合には、一度に複数文字の文字列を識別することが有利となる。スタイル制約型識別では、識別フィールドより短いフィールドで識別器をトレーニングさせることができる。特に準定型書式の読取りのためには,言語文脈情報を取扱い可能なデータストリームに適合できる体系的手法の開発がまだ残されてはいるが、この動的識別器のみが、不完全な印刷・手書き・複写文書を読取れる人間の能力に対抗できる望みとなる。
- 2004-02-12