マルコフモデルを用いたOCRからの誤り文字列の訂正効果
スポンサーリンク
概要
- 論文の詳細を見る
21世紀の知的通信サービスの1つにファックスを用いた翻訳通信があり,一般の家庭から利用可能で,将来的に大いに期待される.ファックスによって送信された文書は,光学式文字読み取り測置(OCR)を通して入力されるが,このような文書には,一般に置換誤り,脱落誤りおよび挿入誤りの文字列が含まれる.自然言語処理技術を用いて,これらの誤りを自動検出および訂正する技術が期待されている.従来,日本語漢字かな混じり文に対し,m重マルコフ連鎖モデルを用いて,これら3つの誤りタイプの判定および訂正を行う「選択的誤り訂正法」が提案されており,疑似的に設定されたランダム誤りに対し,その有効性が示されている.本論文では,選択的誤り訂正法を,実際に,ファックスを通して送信された文書をOCRにより読み込む場合に含まれる日本語文の誤り文字列の検出・訂正に適用し,本手法が,ファックスとOCRによる複合誤りの検出および訂正に効果的であることを確認する.フォントサイズとして8,10,12ポイントの3種類を用いた実験により,次の知見を得た.1.FAX通信された文書のOCR誤りの特徴として,(a)置換誤りおよび混合誤りタイプ,誤り位置が先頭および内部,誤り文字列長が1または2,文節内の誤り文字が連続したもの,誤り文字種が漢字であるものが多数を占めること.(b)文字の大きさに比例して,複雑な誤りタイプが減少すること.2.従来のランダム誤りと比較して,FAX-OCR複合誤りの適合率および再現率が低下する理由として,(a)複数の異なる誤りタイプから構成される混合誤りが存在すること.(b)文節の先頭および末尾にも誤りが存在すること.(c)文節内で誤り位置が分離している誤りが存在すること.(d)文節内の誤り文字列長が3以上の誤りが存在すること,
- 一般社団法人情報処理学会の論文
- 1994-07-21
著者
-
荒木 哲郎
福井大学工学部知能システム工学科
-
池原 悟
NTTコミュニケーション科学研究所
-
小松 康則
株式会社日立制御システム
-
荒木 哲郎
福井大学 工学部
-
小松 康則
福井大学 工学部
-
塚原 信幸
NEC
-
塚原 信幸
日本電気株式会社c&c第一事業本部
関連論文
- DBから抽出した日英新聞記事の自動対応付け
- 広域直接翻訳における品詞変換処理
- 大規模日本語コーパスからの連鎖型および離散型の共起表現の自動抽出法
- 大規模日本語コーパスからの連鎖型および離散型共起表現の自動抽出法
- 日英機械翻訳における原文自動書き替え型翻訳方式とその効果
- 専門分野対応の日英機械翻訳用構文意味辞書の構築
- 日英機械翻訳に必要な結合価パターン対の数とその収集方法
- IPAL動詞辞書との対比による日英翻訳用構文意味辞書の充足性の検討
- 2重, 3重のマルコフ連鎖モデルを2段階に使用したべた書き仮名文の文節境界推定法
- 音節連鎖特性に着目した対話文の言い直し表現の抽出法
- 音節連鎖特性に着目した対話文の言い直し表現の抽出法
- マルコフモデルによる言い直し対象の文字列の検出について
- FAXを入出力に用いた翻訳通信システムの検討
- 読みの情報を用いた仮名漢字変換の精度向上効果の推定
- マルコフモデルを用いて漢字かな混じり文候補を選択する方法
- 日本語文音声出力からの読み情報を用いた漢字かな混じり文 : 節候補の絞り込み
- 品詞ならびに漢字かな文字のマルコフ連鎖確率情報を用いた文節漢字かな列候補の絞り込み法
- マルコフ連鎖モデルによる文節かな漢字変換候補の絞り込み方法
- 和語動詞に対する日英対訳用例文の収集について
- マルコフ連鎖モデルを用いた日本語文の置換型, 挿入型及び脱落型誤りの検出・訂正法の改善
- スキップタイプのマルコフ連鎖モデルを用いた日本語文の脱落誤り文字列の検出と訂正法
- マルコフ連鎖モデルを用いた日本語文誤り検出法の改善
- m重マルコフ連鎖モデルを用いた日本語の誤字・脱落・誤挿入誤り文字列の検出と訂正法
- スキップマルコフ連鎖モデルを用いた日本文の誤り検出、訂正方法
- スキップマルコフ連鎖モデルを用いた日本文の誤り検出、訂正方法
- 音声対話文に含まれる離散的な言い直し表現の抽出法
- 単語辞書引きを用いたべた書きかな文の仮文節境界の補正方法
- 日本語文の複合誤り文字列の検出訂正法
- N-gramを用いた対話文の言い直し表現の検出法
- 日本語文の相互干渉誤り文字列の検出・訂正方法
- N-gramを用いた対話文の言い直し表現の検出法
- 2重マルコフモデルを用いたべた書きかな文の仮文節境界の推定方法
- 単語マルコフモデルを組み合わせた仮文節境界の補正法
- 文の先頭・末尾位置を考慮したべた書き日本語文の検出・訂正効果
- 新聞記事日本文における書き替え対象表現の分布
- 階層的認識構造に着目した日本語従属節間の係り受け解析の方法とその精度
- 階層的認識構造に着目した日本語従属節間の係り受け解析の方法とその精度
- 双対オートマトンに基づいた適合性試験の誤りシーケンスの実現手順
- マルコフモデルによる音節文ラテイスからのキーワード候補の絞り込み
- 3重マルコフモデルによるべた書きかな文の仮文節境界の推定法
- マルコフモデルを用いたOCRからの誤り文字列の訂正効果
- 置換誤りを含んだべた書きかな文の仮文節境界の推定方法
- アクセント位置情報を用いた文節単位の音節候補列の絞り込み効果
- 音節マルコフモデルによる日本語音節会話文ラテイスからのキーワード抽出法
- 置換誤りを含んだべた書きかな文の仮文節境界の推定法
- マルコフ連鎖モデルによるかな文と英語文の誤り訂正
- マルコフ連鎖モデルによる日本語文と英語文の誤り検出評価
- べた書きかな文の仮文節境界の補正方法
- べた書きかな文の仮文節境界の補正方法
- m重マルコフモデルによる日本語の誤字、脱落及び挿入誤りの検出法
- 2重マルコフモデルによる日本語文の誤り検出並びに訂正法
- 順方向、逆方向並びに中間タイプの2重マルコフ連鎖モデルによる日本語の誤字訂正候補選択の効果
- 2重マルコフモデルの全域法と局所法による日本語の誤字訂正効果
- 音節テラィスに適用するビタービアルゴリズムの評価について
- 日本文音節入力に対して2重マルコフ連鎖モデルを用いた漢字仮名交じり文節候補の抽出精度
- m重マルコフモデルを用いた音節ラティスからの候補絞り込み手法について
- 2重音節マルコフモデルによる日本語の文節音節認識候補の曖昧さの解消効果
- 日本文校正支援システムにおける評価方法の考察
- 2重マルコフ音節連鎖確率を用いた日本語音声認識後処理
- 弱抑制による連鎖共起表現の抽出とそれに基づく離散共起表現の抽出
- 対訳コーパスから対応する表現対の自動抽出
- 語用論的・意味論的制約を用いた日本語ゼロ代名詞の文内照応解析
- 語用論的・意味論的制約を用いた日本語ゼロ代名詞の文内照応解析
- 多段解析法による日本語形態素解析の精度
- 日英機械翻訳における利用者登録語の意味属性の自動推定
- 日英機械翻訳における利用者登録語の意味属性の自動推定
- 言語表現体系の違いに着目した日英機械翻訳機能試験項目の構成
- 日本語従属節の依存構造に着目した係り受け解析
- 用言意味属性を用いた日本語ゼロ代名詞の文章外照応解析
- 単語解析プログラムによる日本文誤字の自動検出と二次マルコフモデルによる訂正候補の抽出
- 機械翻訳の現状 : 日英及びその他の言語 (コンピュータ・コミュニケーションの現在)
- 近接単語の並びに着目した形態素解析多義の絞り込み
- 日本文書き替え処理における制御ルールの類型情報の抽出
- 日英機械翻訳における原文前編集の内容と効果について