固有表現抽出のための大規模訓練データの自動獲得

概要

論文の詳細を見る
固有表現抽出は,質問応答や情報抽出などのアプリケーションにおいて基盤技術となっており,人名,地名,組織名,遺伝子名など,様々な意味クラスで試みられている.高い性能をもつ固有表現抽出器を構築するためには,あらかじめ意味クラスを付与した訓練データを用意し,機械学習アルゴリズムに基づいて構築するのが一般的である.しかしながら,訓練データの整備は,人手での作業に頼っているのが現状である.これでは,様々なドメイン・意味クラスで,広く固有表現抽出を利用しようにも,訓練データの入手性が固有表現抽出器構築のボトルネックになると考えられる.そこで,本研究では,より入手の容易な語彙データベースと生テキストを用いることで,固有表現抽出のための訓練データを人手に依らず自動的に獲得する手法を提案する.語彙データベースに含まれる豊富な情報を利用することで,高適合率な訓練データを自動獲得し,等位構造解析とself-trainingを適用することで,人手で作成した訓練データに迫る,高品質な訓練データを獲得した.
2011-05-09