辞書式順序を持つペナルティによるゼロ代名詞解消(自然言語)
スポンサーリンク
概要
- 論文の詳細を見る
日本語では,主語や目的語などが省略されることが多く,これらの省略はゼロ代名詞と呼ばれる.機械翻訳や質問応答などのシステムでは,ゼロ代名詞の解消,つまり,何が省略されているかの推定が性能向上につながると期待できる.他の自然言語処理タスクと同様,これまでは経験則に基づくアプローチが主であったが,最近,機械学習によるアプローチが注目されている.しかし,高品質な訓練データを大量に準備することは難しい.そこで本論文では,経験則と機械学習の効果的な組合せ方法を提案する.まず,照応解析の機械学習が,通常の分類学習より困難な複数インスタンス学習の一種であることを指摘し,学習を簡単化するために,経験則を導入する.既存の複数の経験則を理解しやすい形で統合するために,ペナルティの辞書式順序を定義し,実験により,選択制限と属性共有を重視した辞書式順序が,SVMに匹敵する性能を出せることを示す.そして同一表記で出現位置の異なる候補が複数ある場合に,その中で辞書式順序で一番条件の良い候補だけを使うと,機械学習の性能が向上することが実証された.さらに,最良の候補を機械学習で選択するさいに,SVMの3つのバリエーションの中で,「優先度学習」と呼ばれる手法が安定して高い性能を示すことが判明した.
- 一般社団法人情報処理学会の論文
- 2006-07-15
著者
-
賀沢 秀人
日本電信電話(株)コミュニケーション科学基礎研究所
-
磯崎 秀樹
日本電信電話(株)NTTコミュニケーション科学基礎研究所
-
平尾 努
日本電信電話株式会社NTTコミュニケーション科学基礎研究所
-
磯崎 秀樹
日本電信電話株式会社 Nttコミュニケーション科学基礎研究所
-
磯崎 秀樹
日本電信電話株式会社 Ntt コミュニケーション科学基礎研究所
-
平尾 努
日本電信電話株式会社 Ntt コミュニケーション科学基礎研究所
-
賀沢 秀人
日本電信電話株式会社nttコミュニケーション科学基礎研究所
関連論文
- 最適化問題としての文書要約
- 最大マージン原理にもとづく多重トピック文書の自動分類(フィルタリング、文書分類)(テーマ:「Webマイニングによる情報活動と自然言語処理」その他一般)
- 最大マージン原理にもとづく多重トピック文書の自動分類(フィルタリング、文書分類)(テーマ:「Webマイニングによる情報活用と自然言語処理」その他一般)
- ネット情報を使ってホットなものを選ぶシステム : DSIUシステム : Decision Support for Internet Users
- DSIUシステム : Decision Support for Internet Users「ネット情報を使ってホットなものをあなたに! 」
- モデル検査に基づく知識・信念の推定(「定理証明, 推論関係の新技術」)
- テキスト要約の自動評価(テキストの自動評価)
- 抜粋による複数文書要約を評価するためのコーパスと評価指標
- 生成・識別モデルの統合に基づく半教師あり学習法とその多重分類への応用
- F値最大化学習に基づく文書の多重ラベリング(機械学習)