OCR入力された日本話文の誤り検出と自動訂正
スポンサーリンク
概要
- 論文の詳細を見る
著者らは既存の日本語印刷文書をハイパーメディアなどのデータベースに効率よく入力・運用する目的で文書理解システム(DRS:Document Recognition System)を開発中であるが,その機能の1つとしてOCRで認識された文字中から日本語文の制約を利用して誤りを検出,オペレータに警告し,可能な場合はより確からしい候補に置き換える後処理を実現した.本後処理は日本語辞書と品詞間接続テーブルを参照して文法的に、成立する文字列の候補を生成した後,各単語の品詞,出現頻度,遷移確率,および認識の確からしさに基づいてコストを計算しその値が最良のものから一定値以内の候補パスを選び出す.そして各カラムの文字候補について,自分自身を通る候補パスに付随するコストと他の文字を通るパスのそれから確信度を計算し,その値により当該候補の入れ替えや,オペレータに対する警告を行う.実験によれば後処理なしで95%程度の認識率であったデータで認識率が約99%に向上し,検出されなかった(言い換えれば入れ替え,警告のいずれも行われなかった)誤認識文字は0.2%程度にとどまった.候補パスを見出す探索には動的計画法とピームサーチを用いることで,803866(25MHz)のパーソナルコンピュータ上で約27文字/秒の実行速度が得られた.
- 一般社団法人情報処理学会の論文
- 1992-05-15
著者
-
伊東 伸泰
日本アイ・ビー・エム東京基礎研究所
-
丸山 宏
日本アイ・ビー・エム(株)東京基礎研究所
-
丸山 宏
日本アイ・ビー・エム(株)東京基礎研究所 : 東京工業大学情報理工学研究科
-
丸山 宏
日本アイ・ビー・エム株式会社東京基礎研究所
関連論文
- 剖検記録の音声認識のための言語モデル作成
- 単語クラスタリングによる確率的言語モデルの分野適応
- 電話音声による列車時刻問合せシステムの評価
- LSAにもとづく電話音声情報検索システム
- 子供音声データベース
- 構造を仮定しない文解釈の一手法
- 自由発話向け言語モデルの現状と課題
- 講義コーパスを用いた自由発話の大語彙連続音声認識(音声情報処理 : 現状と将来技術論文特集)
- 形態素係り受けモデルによる構文解析
- 2000-SLP-32-3 構文構造を反映した確率的言語モデル
- 放送大学コーパスを用いた自由発話の大語彙連続音声認識
- 口語体言語モデルのためのコーパス
- 単語を認識単位とした日本語の大語彙連続音声認識 (音声言語情報処理)
- 音声ワープロ : 過去・現在・未来
- 放送音声の書き起こしに関する検討
- 音声認識・合成によるホームページの閲覧方式
- 単語単位による日本語言語モデルの検討
- ニュース音声書き起こしシステムに関する検討
- 単語を認識単位とした日本語の大語彙連続音声認識
- 制約伝搬アルゴリズムを用いた日本語文の解析
- 電話音声による列車時刻問合せシステムの評価
- 日本語自由発話電話音声からの固有表現抽出
- 2 Web Servicesによる動的な電子商取引の実現 : SOAP/WSDL/UDDI (グローバルネットワーク社会を構築するXML)
- 音声とテキストを用いた認識単語辞書の自動構築
- 平成19年度情報処理学会喜安記念業績賞を受賞して : 受賞業績 Webサービス技術の基盤確立と標準化,ならびに普及への貢献(平成19年度喜安記念業績賞紹介)
- ACM国際大学対抗プログラミングコンテスト世界大会報告
- Global Innovation Outlook : 今後のイノベーションはどこへ向かうか(企業情報システムの過去・現在・未来特集号)
- Webサービスの将来(Webサービス)
- Webサービスの系譜(Webサービス)
- 電子メールを利用したエンドユーザ向けのプログラミング環境
- XML[IV・完] : Webサービス
- XML暗号化とその実装
- e-businessを支える情報技術 : B2BからWebサービスヘ
- 5P-3 ASN.1/XMLトランスレータ
- 事例ベースに基づく自然言語処理
- 情報検索システムにおける効果的なナビゲーション機能の提案
- 電子図書館IV : ナビゲーションシステムプロトタイプ
- 電子図書館III : Information Outlining : 触ってわかる情報の輪郭
- 電子図書館II : 基本設計
- 電子図書館I : 将来像
- Nグラムモデルによる、日本語単語の並べ換え実験
- 「AIマップ-自然言語へのアプローチ」に対するコメントと回答
- 正規文法に基づく日本語形態素解析
- 日本語形態素解析のための後戻りしない辞書アクセス方法
- 自然言語処理技術の最近の動向 自然言語処理における曖昧さとその解消 (<特集>自然言語処理技術の最近の動向)
- オンライン文字認識における後処理 : 住所・姓名の文字補完機能
- カナ姓名のペン入力後処理における予測処理について
- 単語を認識単位とした日本語大語彙連続音声認識
- 単語を認識単位とした日本語ディクテーションシステム
- 人の発声単位を考慮した日本語言語モデルの検討 : 日本語における単語とは
- 単語を認識単位とした日本語ディクテーションシステム
- 口述筆記や音声対話,音声自動翻訳に実用化されはじめた 声認識技術の基礎と応用プログラム開発手法 (特集 マルチメディア/インタ-ネット時代の必須技術となる 圧縮/認識/合成を追求する音声処理の徹底研究)
- 音声認識の最新技術--日本語ディクテ-ションプログラム
- N-gramを用いた日本語テキストの単語単位への分割
- クラスに基づく言語モデルのための単語クラスタリング
- 離散単語発生による日本語ディクテーションシステムについて
- 確率文法を用いた文書論理構造の解釈法
- 文書の論理構造を解釈する一手法
- 正規表現を辞書項目とする形態素解析辞書の構成と利用
- オンライン文字認識を用いた漢字住所入力
- Bigramによるオンライン漢字認識の文脈後処理手法
- OCR入力された日本話文の誤り検出と自動訂正
- RSAチップによるSSLの高速化実験
- Javaにおけるインテグリティモデル
- 主にJava及びActiveXにおけるコード署名の安全性に関する考察(特集・インターネット)
- オブジェクトサイニングについての考察
- PDA上に実装したセキュアトークン
- 最大グラフ・マッチングによる談話理解
- 招待講演:e-Businessを支える情報技術B2BからWebサービスへ (2001年情報学シンポジウム講演論文集--21世紀の情報化社会・ネットビジネスを支える情報学/情報技術) -- (セッション5:情報技術の視点から)
- パネル討論「統計的言語処理/音声言語処理における大規模言語データベースの利用」
- パネル討論「統計的言語処理/音声言語処理における大規模言語データベースの利用」
- 4V-3 XMLを用いたアプリケーションの構築法 : 旅程表作成システムを例に
- 4V-2 XMLを用いたアプリケーションの構築法 : Java Beansによるフレームワーク
- 対話的日本語解析環境 : JAWB
- InfoBus Repeater : A Java-based Publish/Subscribe Middleware
- Java用Publish/SubscribeミドルウエアSecure Distributed Info Busの設計と実装
- Java用Publish/SubscribeミドルウェアSecure Distributed InfoBusにおける鍵配送プロトコル
- 文脈を考慮した自然言語文の入力
- 日本語における文節間係り受け関係の統計的性質
- 制約依存文法とその弱生成力
- 階層的フィルタリング
- 高橋延匡 編, 石綿敏雄, 西村恕彦, 田中穂積, 菊池光昭, 藤崎哲之助 共著, "日本語情報処理", 近代科学社, A5判, 256p., \3,200, 1986