辞書式順序を持つペナルティによるゼロ代名詞解消(自然言語)

概要

論文の詳細を見る
日本語では,主語や目的語などが省略されることが多く,これらの省略はゼロ代名詞と呼ばれる.機械翻訳や質問応答などのシステムでは,ゼロ代名詞の解消,つまり,何が省略されているかの推定が性能向上につながると期待できる.他の自然言語処理タスクと同様,これまでは経験則に基づくアプローチが主であったが,最近,機械学習によるアプローチが注目されている.しかし,高品質な訓練データを大量に準備することは難しい.そこで本論文では,経験則と機械学習の効果的な組合せ方法を提案する.まず,照応解析の機械学習が,通常の分類学習より困難な複数インスタンス学習の一種であることを指摘し,学習を簡単化するために,経験則を導入する.既存の複数の経験則を理解しやすい形で統合するために,ペナルティの辞書式順序を定義し,実験により,選択制限と属性共有を重視した辞書式順序が,SVMに匹敵する性能を出せることを示す.そして同一表記で出現位置の異なる候補が複数ある場合に,その中で辞書式順序で一番条件の良い候補だけを使うと,機械学習の性能が向上することが実証された.さらに,最良の候補を機械学習で選択するさいに,SVMの3つのバリエーションの中で,「優先度学習」と呼ばれる手法が安定して高い性能を示すことが判明した.
一般社団法人情報処理学会の論文
2006-07-15

辞書式順序を持つペナルティによるゼロ代名詞解消(自然言語)

スポンサーリンク

概要

著者

関連論文

スポンサーリンク