決定木を用いた日本語係受け解析

概要

論文の詳細を見る
本稿ではコーパスから決定木を構成し日本語係受け解析に適用する手法を提案する.一般に日本語係受け解析では2文節間の係りやすさを数値で表現し, その数値を1文全体で最適化することによって係受け関係を決定する.したがって, 日本語係受け解析の問題は2文節間の係りやすさを正確に計算することに帰着される.提案手法の主旨は2文節の係りやすさの評価と必要な属性の自動選択に決定木を利用するということである.既存の統計的依存解析の研究では, 文節の種類によらず, あらかじめ決められた属性すべてによる条件付き確率で係りやすさを評価する.一方, 決定木による手法では, 係受け関係にある文節とそうでない文節を弁別する属性が, 2文節の種類に応じて重要な順に必要な数だけ選択される.したがって, 大量の属性をシステムに与えても必要がなければ利用されず, データスパースネスの問題を避けることが可能となる.これによって構文解析の精度向上に効果が期待される属性はすべて採用することができる.EDRコーパスを用いて手案手法の評価実験を行ったところ, 既存の統計的係受け解析手法を4%上回る解析精度が得られた.さらに本実験では, 1.決定木の枝刈りと解析精度の関係, 2.データ量と解析精度の関係, 3.種々の属性の解析精度に与える影響, 4.文節の主辞に関して頻出単語の表層, 分類語彙表カテゴリを属性に加えた場合の影響, の各項目について検討を行った.その結果, 1.少なめの枝刈りで解析精度が向上する, 2.係受け解析の学習に必要な文数はおよそ5万文である, 3.属性のうち特に有効なのは, 係り側文節の形と文節間距離である, 4.主辞の語彙情報を使っても必ずしも解析精度が上がるわけではない, の4点が明らかとなった.これらの結果は今後日本語係受け解析システムや日本語解析済みコーパスを構築する際に一定の指針となりうる.
一般社団法人情報処理学会の論文
1998-12-15

決定木を用いた日本語係受け解析

スポンサーリンク

概要

著者

関連論文

スポンサーリンク