異なる例からの素性の組合せを用いたペアワイズ分類器の学習
スポンサーリンク
概要
- 論文の詳細を見る
We propose a kernel method for using combinations of features across example pairs in learning pairwise classifiers. Pairwise classifiers, which identify whether two examples belong to the same class or not, are important components in duplicate detection, entity matching, and other clustering applications. Existing methods for learning pairwise classifiers from labeled training data are based on string edit distance or common features between two examples. However, if two examples from the same class have few common features, these methods have difficulties in finding these pairs and achieving high recall. One typical example is to check whether two abbreviated author names in different citations refer to the same person or not. Since similarities between examples from the same class become close to zero, classifiers fail to distinguish positive pairs from negative pairs. One approach to avoiding the problem of zero similarities is using conjunctions of different features across examples, but implementing this idea straightforwardly makes the computational cost prohibitive for practical problems. Using a kernel on pair instances, our method can use feature conjunctions across examples without actually doing feature mappings, which are computationally expensive. The kernel is a tensor product of two inner products on the original feature space. The corresponding feature mapping generates conjunctions of features only across the two different examples while that of the conventional polynomial kernel also generates conjunctions of features from the same example, which are irrelevant to pairwise classification and cause deterioration of accuracy. Our experiments on the author matching problem show that this method can give a precision 4 to 8 times higher than that of previous methods at medium recall levels.
- 社団法人 人工知能学会の論文
- 2005-11-01
著者
関連論文
- 人物情報辞典の自動生成のための時系列情報自動収集(ウェブ属性抽出,夏のデータベースワークショップDBWS 2006)
- 人物情報辞典の自動生成のための時系列情報自動収集(ウェブ属性抽出)
- レビュアーの生活圏の特定に基づくCGM評判情報評価(夏のデータベースワークショップ2007(データ工学,一般))
- レビュアーの生活圏の特定に基づくCGM評判情報評価(SNS・blog,夏のデータベースワークショップ2007(データ工学,一般))
- 補完情報の自律型検索機能を有するWebブラウザ(夏のデータベースワークショップ2007(データ工学,一般))
- 補完情報の自律型検索機能を有するWebブラウザ(Web技術,夏のデータベースワークショップ2007(データ工学,一般))
- Web集約質問処理のための検索エンジンの関係データベースインタフェース
- Web集約質問処理のための検索エンジンの関係データベースインタフェース(夏のデータベースワークショップ2007(データ工学,一般))
- Web集約質問処理のための検索エンジンの関係データベースインタフェース(問合せ処理,夏のデータベースワークショップ2007(データ工学,一般))
- ユーザ間の対話からのユーザプロファイル抽出と動的情報探索
- サーチエンジンのクエリログを利用した同位語・話題語の発見と可視化(履歴応用,夏のデータベースワークショップDBWS 2006)
- サーチエンジンのクエリログを利用した同位語・話題語の発見と可視化(履歴応用)
- 複数Webサイトからの共通属性抽出による共通サイトマップの生成(ウェブ属性抽出,夏のデータベースワークショップDBWS 2006)
- 複数Webサイトからの共通属性抽出による共通サイトマップの生成(ウェブ属性抽出)
- Webページに対する典型的なクエリの発見(夏のデータベースワークショップ2007(データ工学,一般))
- Webページに対する典型的なクエリの発見(マイニング,夏のデータベースワークショップ2007(データ工学,一般))
- Americas School on Agents and Multiagent Systems 参加報告
- コンテキストを用いたメールの情報補完(インターネット応用,夏のデータベースワークショップDBWS 2006)
- 主題語からの話題語自動抽出とこれに基づくWeb情報検索(情報抽出,夏のデータベースワークショップDBWS 2006)
- サーチエンジンのメタデータを用いたサーチ結果の信用度判断支援(ウェブDB利用,夏のデータベースワークショップDBWS 2006)
- コンテキストを用いたメールの情報補完(インターネット応用)
- 主題語からの話題語自動抽出とこれに基づくWeb情報検索(情報抽出)
- サーチエンジンのメタデータを用いたサーチ結果の信用度判断支援(ウェブDB利用)
- サーチエンジンのメタデータを用いたサーチ結果の信用度判断支援
- 関係の類似性に基づくWebからのオブジェクト名検索
- 語の共起を用いたWebからの類似関係検索(ウェブ情報とデータベースに関して(ポスター講演))
- 検索隠し味を用いた専門検索エンジンの構築
- 語の同位関連と性質の継承関連を用いた概念階層のWebからの抽出(夏のデータベースワークショップ2007(データ工学,一般))
- 語の同位関連と性質の継承関連を用いた概念階層のWebからの抽出(情報抽出および推薦,夏のデータベースワークショップ2007(データ工学,一般))
- アイデンティティを推定する(WebアイデンティティとAI)
- オブジェクト識別におけるクラスタ数決定方式(情報検索,データ工学論文)
- 属性値が時間変化するWebオブジェクトの識別・検索手法の提案(夏のデータベースワークショップ2007(データ工学,一般))
- 属性値が時間変化するWebオブジェクトの識別・検索手法の提案(Web技術,夏のデータベースワークショップ2007(データ工学,一般))
- ユーザ間の対話からのユーザプロファイル抽出と動的情報探索
- ネット上の情報を分析する技術
- 文書群を問合せとした兄弟カテゴリー文書の検索(情報検索,データ工学論文)
- Web検索エンジンのインデックスを用いた同位語とそのコンテキストの発見
- サーチエンジンのインデックスを利用した同位語検索と同位語コンテキストの発見(ウェブDB利用,夏のデータベースワークショップDBWS 2006)
- WEBコミュニティ発見のためのHITSアルゴリズムの分析と改善
- Web検索結果とその周辺情報の近似的内包表現とその視覚化(Web 1)(夏のデータベースワークショップDBWS2004)
- Web検索結果とその周辺情報の近似的内包表現とその視覚化(セッション3A : Web1)(夏のデータベースワークショップ : DBWS2004)
- 異なる例からの素性の組合せを用いたペアワイズ分類器の学習