m重マルコフ連鎖モデルを用いた日本語の誤字・脱落・誤挿入誤り文字列の検出と訂正法
スポンサーリンク
概要
- 論文の詳細を見る
漢字OCR, ワープロ, 音声認識装置などの入力装置を使用して計算機に入力された日本語文には, 通常, 誤字, 脱落・誤挿入文字などの誤りが含まれるため, これらの誤りを自動的に検出し訂正する技術が期待されている.本論文では, 誤字誤り, 誤挿入誤り, 及び脱落誤り(いずれも誤りは1文字以上)を対象に, m重マルコフ連鎖モデルを用いて誤りの種別を識別し, 誤り文字列を訂正する方法を提案する.また, 本手法の効果を検証するため, 2重マルコフ連鎖モデルを利用して, 漢字仮名交じり表記された新聞記事文(1, 200文)を対象に, それらが誤字, 脱落文字及び誤挿入文字を含む場合(いずれも誤りは, 擬似的に生成された1文字または2文字)について, 誤り種別及び文内の誤り位置と文字数を自動的に検出, 並びに訂正する実験を行った.その結果, オープンデータの誤字, 誤挿入, 脱落の誤りを, 単に, 誤りとして検出(これらの3種のいずれかの誤りとして検出)する精度は, それぞれ, 1文字の誤字または誤挿入誤りの場合は適合率77.2%, 再現率95.0%, 2文字の誤字または誤挿入誤りの場合は適合率79.3%, 再現率99.5%, また, 脱落誤りの場合は適合率61.3%, 再現率36.5%の精度で検出できることがわかった.更に, 誤りの種別や誤り長を含めた検出精度は, 誤字または誤挿入の1文字誤りの場合は, 検出が適合率60.1%, 再現率73.0%で行うことができ, 更に訂正は誤字の場合が適合率41.2%, 再現率50.0%, また誤挿入の場合が適合率41.9%再現率52.0%の精度で自動的にできることがわかった.これと比べて, 脱落誤りの検出と訂正は容易ではないが, 検出が適合率54.6%, 再現率32.5%, また訂正が1文字の場合には適合率29.4%, 再現率17.5%の精度で行えることがわかった.オープンデータとクローズドデータによる適合率, 再現率の差は, 標本量の増加に伴い, 新聞記事文5年分の付近で, かなり接近してくることがわかった.
- 社団法人電子情報通信学会の論文
- 2000-06-25
著者
-
荒木 哲郎
福井大学工学部知能システム工学科
-
池原 悟
鳥取大学知能情報工学科
-
橋本 憲久
福井大学工学部知能システム工学科
-
塚原 信幸
日本電気株式会社C&C第一事業本部
-
小松 康則
株式会社日立制御システム
-
田川 崇史
NTT北陸移動通信網株式会社
-
塚原 信幸
日本電気株式会社c&c第一事業本部
関連論文
- 2重, 3重のマルコフ連鎖モデルを2段階に使用したべた書き仮名文の文節境界推定法
- 音節連鎖特性に着目した対話文の言い直し表現の抽出法
- 音節連鎖特性に着目した対話文の言い直し表現の抽出法
- マルコフモデルによる言い直し対象の文字列の検出について
- 読みの情報を用いた仮名漢字変換の精度向上効果の推定
- マルコフモデルを用いて漢字かな混じり文候補を選択する方法
- 日本語文音声出力からの読み情報を用いた漢字かな混じり文 : 節候補の絞り込み
- 品詞ならびに漢字かな文字のマルコフ連鎖確率情報を用いた文節漢字かな列候補の絞り込み法
- マルコフ連鎖モデルによる文節かな漢字変換候補の絞り込み方法
- マルコフ連鎖モデルを用いた日本語文の置換型, 挿入型及び脱落型誤りの検出・訂正法の改善
- スキップタイプのマルコフ連鎖モデルを用いた日本語文の脱落誤り文字列の検出と訂正法
- マルコフ連鎖モデルを用いた日本語文誤り検出法の改善
- m重マルコフ連鎖モデルを用いた日本語の誤字・脱落・誤挿入誤り文字列の検出と訂正法
- スキップマルコフ連鎖モデルを用いた日本文の誤り検出、訂正方法
- スキップマルコフ連鎖モデルを用いた日本文の誤り検出、訂正方法
- 音声対話文に含まれる離散的な言い直し表現の抽出法
- 単語辞書引きを用いたべた書きかな文の仮文節境界の補正方法
- 日本語文の複合誤り文字列の検出訂正法
- N-gramを用いた対話文の言い直し表現の検出法
- 日本語文の相互干渉誤り文字列の検出・訂正方法
- N-gramを用いた対話文の言い直し表現の検出法
- 2重マルコフモデルを用いたべた書きかな文の仮文節境界の推定方法
- 単語マルコフモデルを組み合わせた仮文節境界の補正法
- 文の先頭・末尾位置を考慮したべた書き日本語文の検出・訂正効果
- 双対オートマトンに基づいた適合性試験の誤りシーケンスの実現手順
- マルコフモデルによる音節文ラテイスからのキーワード候補の絞り込み
- 3重マルコフモデルによるべた書きかな文の仮文節境界の推定法
- マルコフモデルを用いたOCRからの誤り文字列の訂正効果
- 置換誤りを含んだべた書きかな文の仮文節境界の推定方法
- アクセント位置情報を用いた文節単位の音節候補列の絞り込み効果
- 音節マルコフモデルによる日本語音節会話文ラテイスからのキーワード抽出法
- 置換誤りを含んだべた書きかな文の仮文節境界の推定法
- マルコフ連鎖モデルによるかな文と英語文の誤り訂正
- マルコフ連鎖モデルによる日本語文と英語文の誤り検出評価
- べた書きかな文の仮文節境界の補正方法
- べた書きかな文の仮文節境界の補正方法
- m重マルコフモデルによる日本語の誤字、脱落及び挿入誤りの検出法
- 2重マルコフモデルによる日本語文の誤り検出並びに訂正法
- 順方向、逆方向並びに中間タイプの2重マルコフ連鎖モデルによる日本語の誤字訂正候補選択の効果
- 2重マルコフモデルの全域法と局所法による日本語の誤字訂正効果
- 音節テラィスに適用するビタービアルゴリズムの評価について
- 日本文音節入力に対して2重マルコフ連鎖モデルを用いた漢字仮名交じり文節候補の抽出精度
- m重マルコフモデルを用いた音節ラティスからの候補絞り込み手法について
- 2重音節マルコフモデルによる日本語の文節音節認識候補の曖昧さの解消効果
- 日本文校正支援システムにおける評価方法の考察
- 2重マルコフ音節連鎖確率を用いた日本語音声認識後処理