少数の正例とラベルなし事例による文書の自動分類(自然言語処理)
スポンサーリンク
概要
- 論文の詳細を見る
教師付き学習を用いた文書分類の精度は,ある事柄に関する正例文書(正例)に対し,関係しない負例文書(負例)をどのように定義するかに依存する.本論文では,教師付き学習を用いた文書分類における負例収集の困難さを解決するため,正例とラベルなし事例(文書集合)から分類に最適な負例を抽出することで文書分類を行う手法を提案する.我々は,ラベルなし文書集合から正例との類似度の値が最も小さいデータを負例として順次抽出し,Support Vector Machines(SVMs)による学習・テストを繰り返す手法Positive Example Based Learning(PEBL)に対し,順次抽出した負例に対する誤りの検出と修正を行うことで,負例文書を正確に抽出することを試みる.更にSVMsの学習結果に対してBoostingを適用し弱い分類器を繰り返し学習することで,テスト文書を精度良く分類する手法を提案する.UDCコードが付与された毎日新聞記事データを用いた文書分類実験の結果,本手法のマクロ平均F値は0.624であり,従来手法であるPEBLが0.597,また人手で作成した50文書,及び250文書からなる負例文書を用いたSVMsによる結果がそれぞれ0.353,0.626であったことから負例収集に対する本手法の有効性が確認できた.
- 2012-09-01
著者
-
福本 文代
山梨大学大学院医学工学総合研究部
-
山本 剛士
山梨大学大学院医学工学総合教育部修士課程コンピューターメディア工学専攻
-
松吉 俊
山梨大学大学院医学工学総合研究部
-
山本 剛士
山梨大学大学院医学工学総合教育部修士課程コンピュータ・メディア工学専攻
関連論文
- 単語の類似尺度に基づくシソーラス辞書への用例付与(学生セッション II)
- WordNetの同義語クラスとその上位関係を利用した文書の自動分類
- Web上から取得した共起頻度と音象徴によるオノマトペの自動分類(自然言語処理)
- マルチモーダルユーザインターフェースを備えた高次コミュニケーション空間の構築に関する研究開発通信放送機構委託研究(1997-2001)
- 単語の類似尺度に基づくシソーラス辞書への用例付与(学生セッション II)
- コーパスに基づく動詞の多義解消
- コーパスに基づく動詞の多義解消
- 超高速ATM LANの構築法と次世代ユーザーインタフェースに関する研究
- 階層構造におけるカテゴリの統合と類似文書抽出への適用(学生セッション I)
- 階層構造におけるカテゴリの統合と類似文書抽出への適用(学生セッション I)
- マルチラベルの分野名タグに対する事例間類似度に基づいた誤り修正(自然言語処理)
- 分野の階層構造を利用したコーパスの誤り修正と文書分類への適用(自然言語処理)
- TD-2-1 知的情報検索のための大規模言語データの利用(TD-2. WEB知的処理の基礎)
- 話題の推移に基づく続報記事の自動抽出(自然言語)
- 語義の曖昧性解消のための最適な属性選択
- 語義の曖昧性解消のための最適な属性選択
- 語の重み付け学習を用いた文書の自動分類
- 類推に基づく語の重み付け学習を用いた動詞の多義解消
- 音声とポインティングジェスチャを利用した指示物同定
- 文脈依存の度合を考慮した重要パラグラフの抽出
- ニュース文の話題セグメンテーション
- 3語の同時出現頻度を利用した前置詞句の係り先の曖昧性解消
- 辞書の語義文を用いた文書の自動分類
- ニュース文を対象とした話題の認識
- 日本語の述部階層構造に基づく形態論的な文法規則の記述法
- ニュース文を対象とした話題毎のセグメンテーション
- 3語の同時出現頻度を利用した前置詞句の係り先の曖昧性解消
- 係り受けの強度に基づく依存文法 : 制限依存文法
- 局所化した単一化文法とその表現
- 制限依存文法とその表現
- 少数の正例とラベルなし事例による文書の自動分類(自然言語処理)
- Web掲示板における皮肉の分類および自動検出