新たな弱教師付き型分類手法Bautext

概要

論文の詳細を見る
本稿では,web上の大量のレビュー情報を要約する際の基盤技術として,単語を意味的カテゴリに分類するための手法,Bautextを提案し評価する.Bautextは弱教師付き手法であり,係り受け関係と相互情報量に基づいた名詞・名詞句のカテゴリ分類を行う.Bautextの特徴は以下の4つである.1)既存のブートストラッピング法等は,性能が多数のパラメータに依存するため,ユーザは良い分類精度を得るためのパラメータ設定を試行錯誤して見つける必要があった(小町ら,2010).一方,Bautextにおいてはユーザは多数のパラメータ設定をする必要がなく,少数の種語を与え,各カテゴリと単語の関連度(配属スコア)を計算することにより,漸次種語を増加させ,分類を自動化させている.2)既存のブートストラッピング法では,反復ごとに多数のカテゴリが1つの単語を獲得しようとするときに再度評価のステップがあった.一方,Bautextにおいては,各カテゴリが独立な特徴語集合を持ち,それをもとに各カテゴリへの単語の配属スコアを計算し,最大スコアのカテゴリが単語を獲得することでこの再度評価のステップをなくした.そのため,ブートストラッピング法と比べて高速な分類アルゴリズムとなっている.3)既存のブートストラッピング法では意味ドリフトという課題がある.意味ドリフトの原因は,反復処理の過程において,新しい単語を獲得するために使われる抽出パターン数が定数個であるため,以前の各反復で抽出できた適切な抽出パターンの影響が消されることにあると考えられる.これに対して,Bautextでは,各カテゴリが,独立な特徴語集合に今まで抽出できた適切な特徴語(抽出パータンと同じ役割)を保存することと反復ごとに分類対象の単語をランダムに選択させることにより,意味ドリフトを制御する効果が期待できる.4)目的の分類カテゴリに加えて「その他」カテゴリを導入することで,本来評価対象となりえない単語が「その他」カテゴリに移動し,目的の分類カテゴリの適合率が向上するという特徴がある.評価実験では,まず「その他」カテゴリの導入効果を確認した.また,代表的なブートストラッピング法であるBasiliskおよびEspressoの2手法とBautextとを比較し,両者に比べ,Bautextが分類精度,速度,使いやすさの3点において有効な手法であることを確認した.
2011-01-15

新たな弱教師付き型分類手法Bautext

スポンサーリンク

概要

著者

関連論文

スポンサーリンク