複数の筆者の表記の違いを利用した同義表現抽出(語彙的知識獲得)
スポンサーリンク
概要
- 論文の詳細を見る
大量のテキストを分析し傾向を捉えるテキストマイニングにおいて、分析の観点で同義表現とみなせる語を代表的な表現に集約することは、表層表現の出現頻度のみで分析をするよりも有効である。そのためには、一般的な同義表現のみならず、分析対象の文書と目的に特化した同義表現の辞書が必要になる。本稿では、筆者別に分けられた文書集合を、表現の一貫性が保たれた文書集合として用いることにより、同義表現抽出の精度を向上させる手法を示す。我々は同一の筆者であれば一つの対象を表現するために、常に同じ表現を使う傾向があると仮定した。この仮定によれば、筆者別に分けられた文書内で似た文脈をもつ語あるいは表現のほとんどが類義表現であっても同義表現ではないといえる。コールセンターの対応記録データを用いて実験を行った結果、この仮定と本手法の有効性が示された。
- 2004-07-15
著者
関連論文
- 時系列情報を利用した複合語キーワードの抽出(抽出,コーパス)
- テキストマイニングのための情報抽出手法
- 複数の筆者の表記の違いを利用した同義表現抽出(語彙的知識獲得)
- 文脈一貫性を利用した極性付評価表現の語彙獲得(語彙的知識獲得)
- テキストマイニング : 大量文書データの戦略的利用技術
- 文脈情報を利用したキーワード語義決定
- 特徴的な記述を利用した問題発見手法の実現(知識発見,第1回テキストマイニング・シンポジウム)