日本語OCR文における英字・カタカナのスペル誤り訂正法
スポンサーリンク
概要
- 論文の詳細を見る
OCR(Optical Character Recognition)装置を通して入力された文は, 通常, 誤字, 脱落あるいは誤挿入の誤りを多く含んでいる. 本論文では,日本語OCR文で特に認識誤りの多い英字とカタカナを対象としたスペル誤り訂正法を述べる. この方法は, 入力単語と辞書中の全単語間のハッシュ距離計算による1次候補単語選択と, 入力単語と各候補単語間のレーベンシュタイン距離計算による最終候補単語選択の2つのステップからなる. ハッシュ距離は, 文字列に対応付けられた整数値を用いて単語間の類似性を調べるもので, 「ハッシュ距離 <_- レーベンシュタイン距離」の関係が成り立つ. 辞書および距離計算管理データはフラットな1次元配列構造として, スペル誤りの多い文に対応できるようにした. レーベンシュタイン距離が同じときは, 辞書単語の使用頻度の大きい順に候補単語を提示することにより, スペル誤り訂正能力の向上を図った. 数値例によって, 提案手法の有効性を検証した. ハッシュ距離はレーベンシュタイン距離のおよそ50倍の速さで計算される. 約11,700語の辞書で, スペル誤り数が1〜8の場合, 候補単語選択時間の平均値は11〜40msであった. 誤り率40%のとき, ヒット率(正しい単語が候補の先頭)およびトップ5率(正しい単語が候補の5番目までにある)は, それぞれ73〜93%および89〜98%であった.
- 一般社団法人情報処理学会の論文
- 1997-07-15
著者
関連論文
- 分散型総合病院情報システムへのマイクロコンピュータの応用
- 高性能マイクロプロセッサの技術動向
- WWW活用決裁業務支援システムの試作
- 研究付帯業務へのグループウエアの活用事例
- 研究開発プロセスへのWWW活用事例
- 研究所イントラネット環境の構築
- 企業内研究部門における電子メール環境整備と運用
- ニューラルネットワークによる図書の自動分類
- WWWベースの高速データ検索システム
- WWW環境における研究情報サービスシステムの構築と評価
- OCR文書の認識誤り修正支援システムの開発
- 日本語OCR文における英字・カタカナのスペル誤り訂正法
- ネットワークを活用した研究所内技術情報サービス
- WWW-RDB連携システムの開発