相補的な素性選択基準の関係を考慮した文書分類のための素性選択方式
スポンサーリンク
概要
- 論文の詳細を見る
文書の分類は一般に文書に含まれる素性(単語)の出現情報を文書の特徴として行われる.従って,素性の選択は分類精度に影響を与えるものとして検討が重ねられ,これまでχ^2統計量や相互情報量といった選択基準が提案されている.ここに,分類精度においては,カテゴリへの帰属を表す網羅性(再現率)とカテゴリにあてはまらない信頼性(適合率)の2つの観点がある.これまで提案された基準はこれら2つの観点のいずれかに応じたもので,特に分類精度の寄与が高くても,低頻度の素性は考慮されない限界があった.本稿では,相補的な分類器の統合を図る集団学習の考え方に基づき,複数の基準を統合する素性選択方式を提案する.提案方式による素性が従来の1つの基準によるものに比べて分類精度に優れること,提案方式により選択された低頻度の素性が分類に効果的に寄与していることを,新聞記事データを用いた実験から明らかにした.
- 一般社団法人情報処理学会の論文
- 2009-02-26
著者
-
松永 務
株式会社NTTデータ
-
末永 高志
株式会社NTTデータ技術開発本部
-
末永 高志
(株)nttデータ技術開発本部
-
末永 高志
株式会社nttデータ 技術開発本部
-
関根 純
(株)NTTデータ技術開発本部
-
関根 純
株式会社NTTデータ技術開発本部
-
松永 務
株式会社nttデータ技術開発本部
-
松永 務
電気通信大学電気通信学研究科情報通信工学専攻:(現)株式会社nttデータ技術開発本部
-
松永 務
Nttデータ通信株式会社技術開発本部マルチメディア技術センタ
-
末永 高志
株式会社NTTデータ
-
末永 高志
株式会社NTTデータ技術開発本部|早稲田大学基幹理工学部応用数理学科
関連論文
- 非線形構造に着目した識別ルール抽出法(バイオインフォマティクスとパターン認識)
- D-12-55 顔画像検出におけるデータ採取地の影響について
- D-12-45 非線形構造に着目した識別ルール抽出法
- D-12-44 区分線型構造に着目した識別ルール抽出法
- 顔画像認識におけるデータ採取地の影響について
- クラスタリングによる遺伝子解析 : 遺伝子型の自動分類
- クラスタ構造に着目した特徴空間の可視化 : クラスタ判別法(情報論的学習理論論文小特集)
- D-12-62 クラスタ判別法による文字特徴データ解析
- D-12-2 クラスタ判別法による顔画像データ解析
- 分布の構造に着目した特徴空間の可視化 : クラスタ判別法
- クラスタ判別法の医療データ解析への応用 (人工知能基礎論研究会(第46回) 知識ベースシステム研究会(第54回) 合同研究会 テーマ:「アクティブマイニング」および一般)
- パターン分類のための統計的機械学習と遺伝子のデータマイニングへの応用に関する研究(学習と発見,人工知能分野における博士論文)
- 外部ソースを活用したウェブ・マーケティングのための分析フレームワークの提案(データ解析コンペティション:アクセスログデータ解析)
- 1-C-3 外部ソースを活用したウェブ・マーケティングのための分析方式の提案(マーケティング(1))
- 高次元データの可視化技術
- クラスタリングによる遺伝子解析 : 遺伝子型の自動分類
- 属性抽出に基づく結果解釈を目的としたクラスタリング手法の検討(一般セッション(1))(ITS・監視・セキュリティのためのパターン認識・メディア理解)
- 極大クリーク全列挙アルゴリズムを用いた企業コミュニティ理解
- 極大クリーク全列挙アルゴリズムを用いた企業コミュニティ理解
- バイヤーの入札行動を支援する情報提供フレームワークの提案(データ解析コンペティション:オークション・データの解析)
- 1-C-6 落札価格決定モデルに基づくバイヤーへの入札支援情報提供フレームワーク(マーケティング(2))
- 単語の重要度評価基準の検討と医療関連文書への適用評価
- WWW上の電子新聞における記事ナビゲーションシステムの実現
- 複合語解析技術を用いたデータ項目名称の標準化手法
- データ標準化ツール(DBprompt/NAME)における複合語解析を用いた用語辞書構築方法
- データ標準化ツール(DBprompt/NAME)を用いたデータ分析手法
- テキストマイニングのためのドメイン別単語辞書の構築方法
- テキストマイニングのためのドメイン別単語辞書の構築方法
- 業務情報を用いたデータベース性能診断手法
- 相補的な素性選択基準の関係を考慮した文書分類のための素性選択方式
- クリークを用いた企業間関係の構造分析
- 部分空間を導入したランキング方式の企業評価への応用
- 情報間参照構造に基づく関係性解析による疾患関連遺伝子の探索(データマイニング)
- 部分空間比較による変量選択法(テーマセッション(2))(データマイニングとパターン認識・メディア理解)
- 大規模知識構造化のための知識表現モデルと遺伝子機能解析への応用(画像処理,画像パターン認識)
- 部分空間類別法を適用した文書のフィルタリング手法の検討
- 線形識別器における学習曲線の実験的検討
- 最適化手法を用いた認識辞書の学習方法
- ビジネス・インテリジェンス・システムにおける情報要求の抽出手法
- 業務データ分析のためのデータ分析フレームワークの開発
- 3. システム / サービス : 3-2 サイバー社会の玉手箱 : 電子さいふ (気の利いた情報システム)
- 包含関係に基づく一貫性制約記述法
- データ標準化を目的とした類似データの分類手法
- Webアクセスログデータの系列情報を利用したサービスの関連性の分析(テーマセッション: Web, データ工学とメディア理解との融合)
- Webアクセスログデータの系列情報を利用したサービスの関連性の分析(テーマセッション: Web, データ工学とメディア理解との融合)
- D-12-107 アクセス履歴に基づくWebページ利用傾向の可視化法(D-12. パターン認識・メディア理解, 情報・システム2)
- 大規模DB向け正規化手法
- 一貫性制約を考慮したDB概念設計法
- MSIの基本ア-キテクチャ (マルチメディアサ-ビスを開発するための共通プラットフォ-ム)
- 体系的な DB 構築のための用語辞書を用いたデータ標準化手法
- DB設計を支援する情報資源辞書システムの操作機能と実現法
- DB設計支援ツールDBpromptアーキテクチャ
- 分析シナリオに注目したアイテム分析システムの提案 (組織内教育におけるe-Learningの新しい展開)
- テスト結果を用いた多面的分析方法の提案(教育評価/一般)
- DB設計用情報資源辞書システムにおける一貫性制約の記述法
- 多様なマルチメディアサ-ビス提供のためのプラットフォ-ム構築法
- トランザクション・スクリプト記述言語STDL
- SPIRIT分散トランザクション処理仕様 (キャリア共通計算機調達仕様の開発)
- 分布の構造に着目した特徴空間の可視化 : クラスタ判別法
- 分布の構造に着目した特徴空間の可視化 : クラスタ判別法
- 電子権利流通基盤のための汎用的な原本性保証方式(21世紀のコンピュータセキュリティ技術)
- ビジネスオブジェクトのための永続オブジェクト自動生成ツール
- クラスタ判別法の医療データ解析への応用 (人工知能基礎論研究会(第46回) 知識ベースシステム研究会(第54回) 合同研究会 テーマ:「アクティブマイニング」および一般)
- 多様な要求条件に対応可能なマルチメディアサービス向けサービスオーダ管理アーキテクチャの提案
- ユーザビューを意識したデータ分析の一考察
- システムのライフサイクルに適応したDB設計情報管理方式
- MSIのテレエデュケ-ションサ-ビスへの適用方式 (マルチメディアサ-ビスを開発するための共通プラットフォ-ム)
- 業務要件に基づくビジネスオブジェクトカスタマイズツール
- 沖縄県の離島人口に現れるべき乗則
- ベイズ決定理論に基づく階層$N$グラムを用いた最適予測法
- 大規模DBシステム向けのDB設計手法 (デ-タベ-ス処理技術の研究)
- テキストマイニングのためのドメイン別単語辞書の構築方法 (バイオ情報学(BIO) Vol.2009-BIO-19)
- テキストマイニングのためのドメイン別単語辞書の構築方法 (数理モデル化と問題解決(MPS) Vol.2009-MPS-76)