日本語形態素解析用文法規則の使用状況

概要

論文の詳細を見る
最近の自然言語処理においては、文法の巨大化傾向や、それによって生じる無駄がよく指摘される。こういった問題を解決するために、例えば、規則のコストを調整する方法等が研究されている。しかし、文法の縮小と精度の関係や、解析結果分析の際の、《安定しているデータ》のための必要量の基準、更には「あるドメインは解析しやすい/しにくい」といった基準などは、非常に重要であるにも関わらず、あまり明らかではない。本稿では、あるドメインの処理における日本語形態素解析の文法規則の使用頻度と出現時点、および、各ドメインに共通に使われる規則などについて調査すると同時に、解析しやすさ/しにくさなどの観点について考察する。データとして、読売新聞社説記事を約4,500文、IBMのメインフレーム関係のマニュアルを約4,000文、UNIX系のマニュアルを約4,800文使用した。これらのデータを形態素解析する際に使用した規則を調べ、その頻度や共通部分について調査した。使用した形態素解析システムは、3型文法で書かれた規則を、約5,000持っている。
一般社団法人情報処理学会の論文
1993-09-27