日本語形態素解析の分類問題への変換とその解法

概要

論文の詳細を見る
本論文では日本語形態素解析が分類問題として取り扱えることを示し, 決定リストを利用してその問題を解くことを試みる.日本語形態素解析は単語分割と分割された単語への品詞付けの2つの処理から成り立っている.入力文中の単語を構成している各文字に対して, S(開始文字), M(中間文字), E(終了文字)そしてI(その文字自身が単語)のいずれかの記号を付与することで, 単語分割が可能になる.また品詞ごとに上記4つの記号を用意すれば, 同時に品詞付けも行える.つまり日本語形態素解析は入力文の各文字に, 前述した記号を付与する単一の分類問題に変換できる.ここでは帰納学習手法の1つである決定リストを利用して, 訓練データから分類規則を学習し, その規則を利用して形態素解析を行った.1, 000文の解析結果を形態素解析システム「茶筌」による解析結果と比較したところ, ほぼ同等の精度を得た.また「茶筌」による解析結果を本手法により修正するという形をとれば, 最終的に得られた結果は「茶筌」よりも精度が良かった.
一般社団法人情報処理学会の論文
2001-09-15