PPM^*モデルによる日本語単語分割

スポンサーリンク

概要

論文の詳細を見る
日本語処理において, 単語の同定, すなわち文の単語分割は, 最も基本的かつ重要な処理である.本稿では, 文字モデルとビタビアルゴリズムから成る新しい単語分割手法を提案する.まず, 本研究の基本法である文字n-gramモデルに基づく単語分割法を提案する.さらに, 単語分割の精度向上のために, 文字n-gramモデルに代わり, データ圧縮アルゴリズムPPM^*を用いた言語モデルを適用して単語分割モデルを改良する.PPM^*は, 確率・統計的テキスト圧縮技法として最も性能の優れたPPM(Prediction by Partial Matching)の一種である.PPM^*モデルは無限長文脈を取り扱うことのできる可変長n-gramモデルとみなすことができる.ATR対話データベースを用いた評価実験において, 文字n-gramモデルを用いた場合との単語分割精度の比較を行い, 本手法の有効性を示す.
社団法人情報処理学会の論文
1998-11-05

著者

関連論文

もっと見る

スポンサーリンク