単語解析プログラムによる日本文誤字の自動検出と二次マルコフモデルによる訂正候補の抽出
スポンサーリンク
概要
- 論文の詳細を見る
日本文に含まれる誤字を対象に誤字検出実験と訂正候補抽出実験を行い, 誤字の自動検出訂正の可能性を明らかにした. 誤字検出実験では, 正しい文章の解析のために作成した単語解析プログラムを誤字検出を目的とする日本文チェッカとして使用した結果, 68%の誤字検出率を得たが, 検出不能の誤字例を分析した結果, 文節解析レベルのチェック機構の拡充と構文解析レベルのチェック機構の導入で, 誤字検出率はそれぞれ89, 93%に向上する見込みを得た. 訂正候補の抽出では, 誤字検出実験で検出した誤字に対して二次マルコフモデルを適用し, 誤字の前後の文字からみて接続確率の高い文字を候捕文字として抽出した. また, 誤字検出での検出特性に着目して正解文字の字種を確率的に推定することにより, 抽出した候補文字の正解含有率の向上を図った. 誤字検出実験では誤りを検出したとき, 誤りの位置を正確に知ることは困難で, 誤りを含む文字区間とその区間内の文字の誤り確率が与えられる. そこで, 訂正候補の抽出では, 誤りの検出された区間に対して訂正文字列候補を抽出した. その結果, 抽出された訂正文字列候捕は上位15位までで約60%の正解含有率をもつこと, 誤りの位置が正確にわかれば, 正解含有率は10〜25%向上することなどがわかった. これらの結果は, 漢字OCRの誤読文字, リジェクト文字の救済等に応用できるものと期待される.
- 1984-03-15
著者
-
白井 諭
Ntt-アドバンステクノロジ株式会社
-
池原 悟
NTTコミュニケーション科学研究所
-
池原 悟
横須賀電気通信研究所データ通信研究部データ通信方式研究室
-
白井 諭
横須賀電気通信研究所データ通信研究部データ通信方式研究室
関連論文
- 日本語語彙大系について
- 意味類型構築のための文接続表現の体系化
- 機械翻訳のための日英文型パターン記述言語
- 機械翻訳のための日英文型パターン記述言語
- 等価的類推思考の原理による機械翻訳方式
- 市況速報文を対象とする用例利用型日英機械翻訳
- 日英新聞記事の自動記事対応付け
- 日英新聞記事の自動記事対応付け
- DBから抽出した日英新聞記事の自動対応付け
- 重要語句抽出による新聞記事自動要約
- 重要語句抽出による新聞記事自動要約
- 1D-1 新聞記事の自動要約によるニュース速報配信
- 広域直接翻訳における品詞変換処理
- 大規模日本語コーパスからの連鎖型および離散型の共起表現の自動抽出法
- 大規模日本語コーパスからの連鎖型および離散型共起表現の自動抽出法
- 日英機械翻訳における原文自動書き替え型翻訳方式とその効果
- 日本文書き替え処理における制御ルールの機能別構成
- 日英機械翻訳における原文自動書き替え型翻訳方式とその効果
- 日英機械翻訳における原文自動書き替え型翻訳方式とその効果
- 「の」型名詞句における品詞情報と意味情報を併用した係り受け規則の自動生成
- 名詞間係り受け解析に必要な単語意味属性の組の最適化
- 「の」型名詞句における係り受け規則の自動生成法
- IPAL動詞辞書の用例文に基づく日英翻訳用結合価パターン対の収集
- 専門分野対応の日英機械翻訳用構文意味辞書の構築
- 日英機械翻訳に必要な結合価パターン対の数とその収集方法
- IPAL動詞辞書との対比による日英翻訳用構文意味辞書の充足性の検討
- 日英機械翻訳用構文意味辞書の記述精度の向上と作成支援
- 日英機械翻訳のための単語辞書
- 日英機械翻訳のための単語辞書
- 速報型日英翻訳システムALTFLASH
- バイリンガル旅行会話コーパスに見られる話し言葉の特徴分析
- 3N-4 ナ型形容詞に対する日英対訳用例文の収集について
- 決定木を用いた日本語係受け解析
- 複合和語動詞に対する日英対訳用例文の収集について
- 日本文新聞記事からの英文ヘッドライン生成法について
- 英単語に対する述語性の連語的日本語訳語の分析
- 日英機械翻訳システムALT-J/Eの研究開発 (特集論文 日英機械翻訳技術)
- マルコフモデルによる言い直し対象の文字列の検出について
- FAXを入出力に用いた翻訳通信システムの検討
- 結合価パターン対作成のための日英対訳用例文の収集
- 日本語文音声出力からの読み情報を用いた漢字かな混じり文 : 節候補の絞り込み
- 和語動詞に対する日英対訳用例文の収集について
- 置換えを用いたn-gramによる言語表現の抽出
- 日本文意味検索に必要な最小単語意味属性の組の決定
- 日英翻訳システムの改良とタグ付きコーパスの作成
- 経験則とその限界
- 日英機械翻訳における語用論的・意味論的制約を用いたゼロ代名詞の文章外照応解析
- 新聞記事日本文における修飾句と被修飾複合語の関係
- 日英機械翻訳のための構文辞書
- 日英機械翻訳のための構文辞書
- 日英機械翻訳のための意味属性体系
- 日英機械翻訳のための意味属性体系
- 日英変換技術と意味辞書 (特集論文 日英機械翻訳技術)
- 日英機械翻訳のための結合価パターン対の作成支援処理
- 従属節の階層構造に基づく日本語長文の自動分割とその効果
- 新聞記事日本文における書き替え対象表現の分布
- 階層的認識構造に着目した日本語従属節間の係り受け解析の方法とその精度
- 階層的認識構造に着目した日本語従属節間の係り受け解析の方法とその精度
- 日英機械翻訳用スケルトン-フレッシュ型構文意味辞書の構成
- 日英機械翻訳における利用者登録語の意味属性の自動推定
- 言語における話者の認識と多段翻訳方式
- 日英翻訳システムALT-J/Eにおける日本語解析技術
- マルコフモデルによる音節文ラテイスからのキーワード候補の絞り込み
- 3重マルコフモデルによるべた書きかな文の仮文節境界の推定法
- マルコフモデルを用いたOCRからの誤り文字列の訂正効果
- 翻訳テンプレートの自動抽出 : 緩やかに対応付けされたデータからの対訳抽出
- 弱抑制による連鎖共起表現の抽出とそれに基づく離散共起表現の抽出
- 対訳コーパスから対応する表現対の自動抽出
- 語用論的・意味論的制約を用いた日本語ゼロ代名詞の文内照応解析
- 語用論的・意味論的制約を用いた日本語ゼロ代名詞の文内照応解析
- 対訳データの階層的なグループ化に基づく英日翻訳
- シソ-ラスで調べる--『日本語語彙大系』の概要と用法 (特集 ことばを調べる)
- 言語過程説に基づく日本語品詞の体系化とその効用
- 多段解析法による日本語形態素解析の精度
- 日英機械翻訳における利用者登録語の意味属性の自動推定
- 日英機械翻訳における利用者登録語の意味属性の自動推定
- 言語表現体系の違いに着目した日英機械翻訳機能試験項目の構成
- 従属節の依存関係を考慮した日本語係り受け解析の精度
- 日本語従属節の依存構造に着目した係り受け解析
- 日本語従属節の依存構造に着目した係り受け解析
- 用言意味属性を用いた日本語ゼロ代名詞の文章外照応解析
- 単語解析プログラムによる日本文誤字の自動検出と二次マルコフモデルによる訂正候補の抽出
- 機械翻訳の現状 : 日英及びその他の言語 (コンピュータ・コミュニケーションの現在)
- 近接単語の並びに着目した形態素解析多義の絞り込み
- 日本文書き替え処理における制御ルールの類型情報の抽出
- 日英機械翻訳における原文前編集の内容と効果について
- キ-ワ-ド自動抽出システム(INDEXER) (知能処理技術の応用)