ClassModelを用いた単語分類の拡張及び高速化(情報抽出・単語分類)(テーマ:「Webマイニングによる情報活用と自然言語処理」その他一般)
スポンサーリンク
概要
- 論文の詳細を見る
本稿では、従来のClass Model[11]による単語分類を精度を落とすことなく約20倍から30倍高速化すると同時に、言語モデルとして最適な分類数を同時決定する手法を提案する。これにより、単語総数が1億、を超えるような大規模コーパスを利用した単語分類が数時間で可能となる。Class Modelは、学習データの対数尤度の最適化の観点から単語をClassに分類する.[11]ではExchange Algorithmを用いることにより計算量の削減を行っていたが、本稿ではこれに加えサンプリングチェック、TopDownクラスタリングを組み合わせることにより、精度を落とすことなく高速化可能であることを実データを用いた実験と共に示す。また、Class Model は分類数に自由度があるが、これをMDL[16]、AIC[1]を用いた判断を行うことにより、テストデータに対する対数尤度最小化の面から最適な分類数が自動的に求められることを示す。最後に、上記の高速化と最適な分類数決定を組み合わせたアルゴリズムを示し、最適な分類と分類数が同時かつ高速に求められることを示す。
- 一般社団法人情報処理学会の論文
- 2004-09-16
著者
関連論文
- ClassModelを用いた単語分類の拡張及び高速化(情報抽出・単語分類)(テーマ:「Webマイニングによる情報活動と自然言語処理」その他一般)
- ClassModelを用いた単語分類の拡張及び高速化(情報抽出・単語分類)(テーマ:「Webマイニングによる情報活用と自然言語処理」その他一般)