非頻出語に対して頑健な日本語固有表現の抽出(語彙・固有表現・同義語)

スポンサーリンク

概要

論文の詳細を見る
統計的固有表現抽出のためには,固有表現がタグ付けされた十分な量の学習コーパスが必要である.しかし,新規の固有表現が増加し続けていることを考慮すると,あらゆる固有表現に対応した学習コーパスを用意することは非現実的である.本稿では,この問題に対処するために,固有表現がタグ付けされたコーパスとタグ付けされていないコーパスを併用して,タグ付けされたコーパスに頻出しない語(非頻出語)を含む固有表現を抽出する手法を提案する.提案手法は2段階からなる.最初に,タグ付けされていない大量のコーパスを用いて,入力テキストに含まれている非頻出語を,その非頻出語と良く似た頻出語に対応付ける.次に,元々の語から得られる素性と頻出語から得られる素性の両方を組み合わせて学習した統計的固有表現抽出器によって,固有表現を抽出する.IREXコーパスとNHKコーパスを用いた実験により,提案手法は,非頻出語からなる固有表現の抽出において効果的であることを示す.
一般社団法人情報処理学会の論文
2008-05-15

著者

関連論文

もっと見る

スポンサーリンク