統計情報とコスト最小法に基づいた形態素解析

スポンサーリンク

概要

論文の詳細を見る
近年、新聞記事データを中心として様々な電子化コーパスが利用可能となり、統計的な手法による自然言語処理の研究が盛んである。形態素解析においても、N-gram や d-bigramなどの統計データを用いた解析方式が提案されている。これらの統計的手法のうち、正規化頻度を用いる手法では、単語辞書を用いずに、ある程度の形態素区切りを獲得できることが報告されている。本稿では、正規化頻度が字面のみから得られる情報である点に着目し、従来の辞書と接続表を利用したコスト最小法におけるコストとして正規化頻度を導入することにより、既知語と未知語のコストを統一的に扱うことのできる形態素解析手法を提案する。
一般社団法人情報処理学会の論文
1997-03-12

著者

関連論文

もっと見る

スポンサーリンク