非頻出語に対して頑健な日本語固有表現の抽出(語彙・固有表現・同義語)
スポンサーリンク
概要
- 論文の詳細を見る
統計的固有表現抽出のためには,固有表現がタグ付けされた十分な量の学習コーパスが必要である.しかし,新規の固有表現が増加し続けていることを考慮すると,あらゆる固有表現に対応した学習コーパスを用意することは非現実的である.本稿では,この問題に対処するために,固有表現がタグ付けされたコーパスとタグ付けされていないコーパスを併用して,タグ付けされたコーパスに頻出しない語(非頻出語)を含む固有表現を抽出する手法を提案する.提案手法は2段階からなる.最初に,タグ付けされていない大量のコーパスを用いて,入力テキストに含まれている非頻出語を,その非頻出語と良く似た頻出語に対応付ける.次に,元々の語から得られる素性と頻出語から得られる素性の両方を組み合わせて学習した統計的固有表現抽出器によって,固有表現を抽出する.IREXコーパスとNHKコーパスを用いた実験により,提案手法は,非頻出語からなる固有表現の抽出において効果的であることを示す.
- 一般社団法人情報処理学会の論文
- 2008-05-15
著者
関連論文
- 長時間分析に基づく位相情報を用いた音声認識の検討 (音声)
- SLP音声ドキュメント処理ワーキンググループ活動報告(ドキュメント処理・翻訳・言語獲得,第10回音声言語シンポジウム)
- 1987年音響・音声・信号処理国際会議(ICASSP 87)
- 文字コードに依存しない情報検索の実現
- 中間言語を用いたインドネシア語-日本語対訳辞書の拡充
- 非頻出語に対して頑健な日本語固有表現の抽出(語彙・固有表現・同義語)
- ワードスポッティング法を用いた文脈自由文法制御フレーム同期型HMM連続音声認識法
- ニュース番組における字幕生成のための文内短縮による要約
- 3W-5 ニュース音声の認識結果を用いた要約による字幕生成
- 連続出力分布型HMMによる日本語音韻認識