類似文字データベースとN-gramによる文字認識後処理
スポンサーリンク
概要
- 論文の詳細を見る
市販のOCRの認識率は, カタログでは99%以上をうたっているが, 現実には印刷の品質が悪かったり, スキャナーでの読み取り条件が最適化されていないことのために, 95%程度にとどまっている。そこで, 何らかの言語処理を導入した後処理が必要となる。後処理方式の多くは, N-gram統計を用いたものが多いが, この場合, 文字候補の中に必ず正解文字が存在するという条件が付けられる。つまり, 文字候補の中に正解文字が存在しない場合は, 正解文が得られないことになる。また, 正解文字がN-gramのテキストデータベースに依存する為, 正しい文字を選び出さない事がある。そこで本研究では, 類似文字データベースを作成して, 候補の追加を行なう方法を提案する。すなわち, OCRの候補文字ラティスにtrigramモデルを用いたコスト最小法を適用し, 選ばれた最適パスの中で, ある閾値を越えた部分を誤りとして検出する。そして, その部分に類似文字データベースから新たに候補を補足して再度Ngramモデルを用いたコスト最小法を適用する。新聞記事をテストデータとして実験を行なったところ, この方法による精度の向上を確認できた。また, N-gramデータベースで使用するテキストコーパスに存在しない単語を補うため, 単語辞書のN-gramテータベースを追加した実験を行った。
- 1997-09-24
著者
-
池田 尚志
岐阜大学工学部
-
池田 尚志
岐阜大学工学研究科
-
池田 尚志
Department Of Electronics And Computer Engineering Gifuuniversity
-
兵藤 安昭
岐阜大学工学部
-
平野 浩次
岐阜大学工学部
-
青木 恒夫
岐阜大学工学部
関連論文
- 携帯情報端末用スケーラブルフォントの試作と評価 (ヒューマンインタフェースとインタラクション)
- E_037 ミャンマー語の形式名詞構造の分析と日本語との対応(E分野:自然言語)
- E-014 日本語-ミャンマー語機械翻訳システムjaw/Myanmarにおける述語部構造の翻訳について(E.自然言語・文書・ゲーム)
- 日本語-手話機械翻訳の試みと手話文字生成編集システムおよび自動点訳編集システムについて(「ユニバーサルコミュニケーションを実現するための言語処理技術」シンポジウム)
- 品詞N-gram統計情報を用いた日本語文書における誤り検出法について
- 日本語-手話機械翻訳システムに向けて : テキストレベルの翻訳系の試作と簡単な例文の翻訳(福祉と知能・認知障害/一般)
- 手話の表記法とテキストレベルの日本語-手話機械翻訳システムの試みについて(聴覚・言語に関する障害及び加齢,聴覚・言語一般)
- K-064 日本語テキストから手話表記テキストへの機械翻訳の試み(K.ヒューマンコミュニケーション&インタラクション)
- E-34 手話における手指動作記述文の言語解析(自然言語処理応用,E.自然言語・文書)
- 手話における手指動作記述文の言語解析
- 手指動作記述文の分析と動作の断片を検索キーとする電子化手話辞典
- 日本語-ベトナム語機械翻訳における「N_1のN_2」の処理
- E-47 日越語の構造比較とj-aw/Vietnameseによる日越機械翻訳(機械翻訳(1),E.自然言語・文書)
- E-019 日中機械翻訳における授受表現「てくれる」構文の翻訳処理について(自然言語・音声・音楽,一般論文)
- 日中機械翻訳における存在表現の翻訳処理について
- 日中機械翻訳における構文上の対応のずれに関する考察 : 受動態と能動態のずれ、品詞のずれを中心に(翻訳)
- 日中機械翻訳における存在文および関連する問題について
- LE-001 日中機械翻訳における連体修飾構造の翻訳について(E分野:自然言語)
- 日中機械翻訳における否定文の翻訳
- 日中機械翻訳システム jaw/Chinese における変換・生成の方式
- 日中機械翻訳におけるテンス・アスペクトの処理
- 日中機械翻訳におけるとりたて表現の翻訳について : 「も」, 「さえ」, 「でも」
- 大域的個人性と局所的個人性に基づく手書き風フォントの生成
- 非線形変換と線形結合を用いたユーザ固有の手書き風フォントの一生成法
- 日本語-手話機械翻訳システムに向けて : テキストレベルの翻訳系の試作と簡単な例文の翻訳(福祉と知能・認知障害/一般)
- 品詞N-gram統計情報を用いた日本語文書における誤り検出法について
- 品詞N-gram統計情報を用いた日本語文書における誤り検出法について
- RK-003 SignWritingによる手話文記述支援システム(教育工学・福祉工学・マルチメディア応用,査読付き論文)
- E-022 Sign Writing生成のための手話語彙辞書の検討と構築(E分野:自然言語・音声・音楽)
- 手話文字SignWritingの記述支援 (第28回バイオメカニズム学術講演会 SOBIM2007 予稿集)
- 日本語を援用した日本手話表記法の試み
- 複数モデルの統合によるLDAトピックモデルの高精度化とテキスト入力支援への応用
- 手話テキストからの手話文字SignWritingの自動生成
- 日本語テキストから手話テキストへの機械翻訳の試み
- 日本語から手話への機械翻訳のための手話表記法の試み
- E-45 日中機械翻訳における中国語語順の決定法について(機械翻訳(1),E.自然言語・文書)
- E-44 パターン変換型機械翻訳システムj-awについて(機械翻訳(1),E.自然言語・文書)
- 形態素解析と意味コード化に基づく翻訳支援のための類似例文検索システム
- 構文テキストベースの構築と意味分類コードを用いた類似例文検索への応用
- 意味分類コードを用いた翻訳支援のための類似例文検索
- 非線形な重文複文の表現に対する文型パターン辞書の開発(機械翻訳)
- 電子文書点字化のための前処理フィルタを活用した遠隔点字印刷システム(福祉と言語処理/一般)
- 電子文書点字化のための前処理フィルタを活用した遠隔点字印刷システム(福祉と言語処理/一般)
- 遠隔地からの点字出力システム(福祉と言語処理, 一般)
- 遠隔地からの点字出力システム(福祉と言語処理,一般)
- 遠隔地からの点字出力システム(福祉と言語処理, 一般)
- 意味類型構築のための文接続表現の体系化
- 機械翻訳のための日英文型パターン記述言語
- 機械翻訳のための日英文型パターン記述言語
- 視覚障害者向けデジタルコンテンツアクセス支援技術の開発
- 等価的類推思考の原理による機械翻訳方式
- 構文付きコーパスの作成と類似用例検索システムへの応用
- 構文付きコーパスを対象とする用例検索システム
- 類似文字データベースとN-gramによる文字認識後処理
- 学内LANシステムの導入報告
- Geometric Analysis of the Parameters of Linear Codes from AlgebricSurfaces
- GF(4)上のHermitian曲面から構成した符号のパラメータの分析
- 文字、単語統計解析の一手法
- 誤り箇所指摘機能をもたせた点字翻訳編集システムIBUK-TEN
- 3N-8 辞書データ主導型の自動点字翻訳システム
- E-42 大規模コーパスにおける文パターンの分布調査(知識獲得,E.自然言語・文書)
- E-25 文節構造解析システムibukiBについて(自然言語解析・対話,E.自然言語・文書)
- 視覚障害者のための読書支援システムに関する研究
- 文節機能語列の数え上げと文節解析
- 1N-9 大規模データにおける文節機能語列の調査と長単位機能語辞書
- 長単位文節解析を利用した点字分かち書きシステム
- 部分字形組合せを用いた手書き風フォントの自動生成
- 部分字形組合せを用いた手書き風フォントの自動生成
- 手書き風フォントの自動生成について
- 感性モデルを組み込んだ文書作成支援システムの提案
- ICTを活用した自動車整備士受験のための自学自習システムの構築
- NAC情報教育システム整備報告
- 二級自動車整備士試験問題からのキーワード自動抽出の試み
- [LATEX]による論叢版下作成の可能性
- 1輪ロードシミュレータによる振動伝達特性の測定
- 自動車用アルミニウムパネルのウェルディングバックアップについて
- 事故車見積りシステムの現状と展望
- かな漢字変換日本語入力システムの現状と今後に望むこと
- 文節ブロック間規則による浅い係り受け解析と精度評価
- 表層的情報とN近傍ブロック化手法による日本語長文の骨格構造解析
- 形態素情報と係り先範囲の制約に基づく日本語長文の骨格構造解析
- 表層的情報による日本語長文の骨格構造解析
- 視覚障害者のための読書支援システムに関する研究
- 視覚障害者のための読書支援システムに関する研究
- 日本語長文の係り受け解析 : 「は」のスコープおよび連体埋め込み構造のスコープに関して
- 文節ブロック間規則による浅い係り受け解析と精度評価
- 文節に対するコスト付け手法を用いた形態素解析システム
- モバイル環境におけるエーザインタフエース改善を目指して
- 文節単位のコスト最小法による日本語形態素解析
- 係り受け情報を用いた全文検索とその評価
- 係り受け関係を用いる高精度全文検索
- 最長一致法に基づく3種のアルゴリズムを融合した形態素解析
- 係り受け構造の照合に基づく用例検索システムTWIX
- スロット表現による複合機能語の処理
- 形態素解析の後編集による解析用辞書知識の獲得
- Razor構文による学習支援システムの構築
- 文節解析システムibukiと自動点訳システムIBUKI-TEN