複合化確率文脈自由文法の提案

概要

論文の詳細を見る
自然言語処理において, 文脈自由文法(CFG)ではある文に対して構文解析を行なった場合, 一般に複数の構文木が導出される。そのため解析結果をそのまま意味解析や翻訳等の処理に渡すと処理量が増大する。そこで, 処理の効率化をはかるために, 構文木間に優先順位を設けて後処理に渡す構文木の数を紋ることが考えられ, 例えば, 構文木に生起確率を与える確率文脈自由文法(PCFG)を用いて優先順位をつけることができる。従来のPCFGでは標本列(構文木列)を単一の発生源から収集されたものとしていた。しかし, 実際の言語データが一つの発生源から得られたものか否かわからず, さらに, 自然言語がPCFGで完全に表せるとも限らない。そこで, 実際の言語現象に柔軟に対応できるようにするため, 実際のデータは複数の発生源から収集されるものとして, 複数のPCFGをもつ複合化確率文脈文法(以下, 複合化文法という)を提案する。本研究では, 学習データから得られた複合化文法が, 実際にどのような発生源から得られたかがわからないことを考慮して, 文法数(複合化度)の決定法と適用確率の推定法を提案する。
1997-09-24