段落内共起情報を利用した文書自動分類方式
スポンサーリンク
概要
- 論文の詳細を見る
従来, 文書の自動分類の精度向上において問題となっていた多義語の曖昧性を解消し, 分類精度を向上するために, 以下の3つの点を特徴とする文書自動分類方式を提案する.1.単語出現頻度と文書分類カテゴリとの間のX^2統計による重み付けにおいて複数の分類カテゴリで重要度が高い単語を分類多義語と定義する.2.重要度が高い分類カテゴリを分類多義語に付け加えた単語を分類多義拡張単語とし, 出現頻度を補正する.3.分類多義語と同一段落内で共起する単語のみから構成する共起単語の共起ベクトルと入力文書の共起単語の共起ベクトルとの類似度を計算することで, 入力文書の分類多義語の出現頻度を分類多義拡張単語の出現頻度に補正する.新聞記事65, 078記事における詳細な734分類カテゴリへの分類実験の結果, 分類精度が従来方式による場合の48.1%から3.5ポイント改善された51.6%になった.また, 再現率と適合率単独で見ると, 再現率が従来方式による場合の45.5%から最大で7.4ポイント改善された52.9%になり, 適合率が43.5%から7.1ポイント改善された50.6%になった.
- 一般社団法人情報処理学会の論文
- 2001-03-15
著者
関連論文
- 技術文書標題からのキーワード抽出
- 概念抽出型テキストマイニングによるアンケート分析手法の提案
- D-5-2 CRM 向けテキストマイニング方式の提案
- eCRM向け概念抽出型テキストマイニング
- D-37 大規模検索システムにおける概念辞書自動更新(辞書・シソーラス,D.データベース)
- 言語事例推論を用いたネットワーク障害対応ガイダンス
- 1N-1 ヘルプデスク支援システムにおける用語獲得
- 2U-1 ヘルプデスク支援システムにおける言語事例データの類似検索
- コーパスからの同義語の獲得(1) : 近傍単語頻度統計によるアプローチ
- eCRM向け概念抽出型テキストマイニング
- 言語事例推論を用いたネットワーク障害対応ガイダンス
- ヘルプデスク支援システムにおける問題解決機能
- 1P-4 ヘルプデスク支援システムにおける言語事例検索 : 全体構成
- 1P-3 ヘルプデスク支援システムにおける言語事例検索 : 類似文照合
- 4M-2 ヘルプデスク事例活用のための言語分析方式
- 木・表構造間写像モデルに基づくXML入力画面自動生成方式(コンテンツ処理)
- 段落内共起情報を利用した文書自動分類方式
- 企業間文書情報共有におけるSGML文書内容検証方式
- WWWブラウザによるXML文書入力方式について
- SGML 文書の内容検証方式とその評価
- 全文検索システムにおける文字成分表の作成手法
- 全文検索における例文検索
- 「韻」に基づく並列句の解析
- 実用性の向上を目指した機械翻訳システムの改良(2)
- 日英機械翻訳システムMELTRAN-J/Eにおける空間的機能名詞の処理
- 日英機械翻訳システムにおける長文の解析
- E-35 XML入力画面自動生成方式(自然言語処理応用,E.自然言語・文書)
- 電子申請におけるXML文書内容検証方式
- 次世代WebビジョンSemantic Webの技術動向
- 電子申請におけるXML文書内容検証方式 : 複数XML文書の内容間制約を記述する文書規約記述言語DRDL
- XML文書ワークフロー構築支援方式 : インターネットを用いた設計支援システムにおけるXML文書設計支援方式
- D-9-12 XML文書ワークフロー構築支援方式
- XMLによる電子申請書のメタ情報の表現について
- XMLスタイルシート作成ツールとワークフローへの応用
- 5P-1 SGML文書のWWW入力・表示プログラム作成ツール
- XML文書のスタイルシート生成方式
- 4V-8 SGML文書の表組みレイアウト作成支援方式
- 社内文書のSGMLによる標準化とイントラネットによる活用
- リンク情報を利用したインターネット情報検索方式の検討
- B-6-42 ファクシミリ信号のIP伝送に関する一検討(B-6.ネットワークシステム,一般講演)
- B-6-9 VoIP音声多重伝送システムにおける冗長伝送に関する一検討(B-6.ネットワークシステム,一般講演)
- B-6-61 VoIP音声多重伝送システムの開発(2) : パケット多重方式(B-6.ネットワークシステム,一般講演)
- B-6-60 VoIP音声多重伝送システムの開発(1) : システム構成と多重制御(B-6.ネットワークシステム,一般講演)
- 電子商取引の仕組みと動向
- 電子商取引における情報処理技術と社会とのかかわり
- インターネット情報監視システムの試作
- 既存紙文書からSGML文書への変換システムの試作
- 4N-4 アンケート自由記述のテキストマイニングに関する検討
- 共起情報を利用した新聞記事の自動分類結果の分析・評価
- 共起情報を利用した文書の自動分類
- 共起情報を利用した文書の自動分類について
- 文字成分表型全文検索システムのSGML文書検索への拡張
- CALS対応SGML文書管理技術
- D-5-1 インタネット全文検索と関連文書検索を用いたポータル構築支援
- ネットワーク上の文書テキスト検索・利用技術 (特集 IT時代のヒューマンインタフェース技術)
- 統計情報とコスト最小法に基づいた形態素解析
- タグ無しコーパスからの複合語データの自動抽出
- 自然言語事例ベースの仕様書文解析への応用
- E-16 単語共起照合に基づくクレーム抽出方式の改良(情報抽出,E.自然言語・文書)
- 製品情報広域検索システムにおけるデータベース自動構築方式
- 製品情報広域検索システムにおける検索方式