平仮名N-gramによる平仮名列の誤り検出とその修正 (<特集>新しいシステムソフトウェア)

概要

論文の詳細を見る
本論文では, 日本語の平仮名列で生じる書き誤りを検出, 修正する手法として平板名N-gramを提案する. また妥当な N の値についても考察する. 単語N-gramにより文書中の誤り検出, 修正が可能であるが, 大規模なN-gramは N が3の場合でさえ, 構築するのが困難である. また日本語の場合, 形態素解析が必要である点, N-gram表の検索コストが高い点などから, 手軽に利用できる手法ではない. ただし, 平仮名列中に生じる書き誤りに限定すれば, 平仮名文字に対するN-gramを構築することで, 上記の問題を回避し, 平仮名列中の誤り検出, 修正が可能となる. ここで, N を大きくとれば誤り検出の再現率は高くなるが, コーパスのスパース性から適合率が低くなる. つまり最適な N の設定にはコーパスの量と再現率への重みが影響する. 本論文では, 現実規模のコーパスとして新聞記事5年分を利用した. そこから平仮名 3〜6-gram を作成し, 各々を利用した場合の平仮名文字の挿入, 削除, 置換, 転置による誤りの検出とその修正の効果を調べた. 結果, 平仮名列中の誤り検出, 修正に対して平仮名N-gramが有効であること, および新聞記事5年分では 4-gram の利用が実用的であることを示した.
一般社団法人情報処理学会の論文
1999-06-15

著者

新納浩幸
茨城大学工学部情報工学科

平仮名N-gramによる平仮名列の誤り検出とその修正 (<特集>新しいシステムソフトウェア)

スポンサーリンク

概要

著者

関連論文

スポンサーリンク