共起情報を利用した新聞記事の自動分類結果の分析・評価
スポンサーリンク
概要
- 論文の詳細を見る
近年大量のテキスト情報がインターネットなどを通じてアクセス可能となるにつれて, 蓄積された文書の分類整理を目的とする文書の自動ファイリングへの要求が高まっている。特に文書内容による自動ファイリングが望まれる。そのための技術としてベクトル空間モデルがある。ベクトル空間モデルによる自動分類は自動学習可能なため, 大量のテキストデータを扱う場合に適している。しかし, ベクトル空間モデルによる分類は単純に単語の出現頻度のみを捕らえて分類先を決定するため分類精度に問題があり, 精度向上のための方式が提案されている。例えば, 河合は単語の意昧属性を用いて分類精度が向上することを示し, 福本はクラスタリングにおいて辞書の語義文を用いた多義解消により精度が向上することを示した。我々は, [1]で指摘されている単語の多義性を共起情報を用いて解消すれば精度向上すると予測した。ただし, 従来の言語学で言われる「多義語」を多義解消するのではなく, 分類が詳細になった場合顕著となる複数分類項目で頻繁に出現する単語に注目した(例えば, 単語「大統領」は<首相<や>大統領選挙>といった複数の分類項目で頻繁に出現する)。この, 複数分類項目で頻繁に出現する単語を「分類多義語」と定義し, 共起情報を用いて「分類多義語」の多義を解消した自動分類を試みた。今回, 本方式で自動分類した結果と, 河合の方式のうち単語のみの情報で自動分類(従来方式と呼ぶ)した結果とを比較し, 本方式が有効な場合を明らかにする。また, 従来方式でも本方式でも解決できない点を分析する。
- 一般社団法人情報処理学会の論文
- 1997-09-24
著者
-
高山 泰博
三菱電機株式会社情報技術総合研究所
-
鈴木 克志
三菱電機株式会社情報技術総合研究所
-
今村 誠
三菱電機株式会社情報技術総合研究所
-
藤井 洋一
三菱電機株式会社情報技術総合研究所
-
鈴木 克志
三菱電機株式会社 情報技術総合研究所
-
鈴木 克志
三菱電機 情報技総研
関連論文
- 見出し構造を用いた情報機器操作マニュアルからの用語知識獲得方式
- 技術文書標題からのキーワード抽出
- 概念抽出型テキストマイニングによるアンケート分析手法の提案
- D-5-2 CRM 向けテキストマイニング方式の提案
- eCRM向け概念抽出型テキストマイニング
- D-37 大規模検索システムにおける概念辞書自動更新(辞書・シソーラス,D.データベース)
- 言語事例推論を用いたネットワーク障害対応ガイダンス
- 1N-1 ヘルプデスク支援システムにおける用語獲得
- 2U-1 ヘルプデスク支援システムにおける言語事例データの類似検索
- コーパスからの同義語の獲得(2) : スパース性への対処
- コーパスからの同義語の獲得(1) : 近傍単語頻度統計によるアプローチ
- 対話型ヘルプデスク支援システムにお1ナる事例べース構築
- 自然言語事例ベース検索の設計支援への適用
- 自然言語事例ベースの仕様書文解析の評価
- 「智」を楽しむための技術(編集委員今年の抱負2009:経糸から横糸まで)
- 開発者の視点からの機械翻訳システムの技術的評価 : テストセットを用いた晶質評価法
- eCRM向け概念抽出型テキストマイニング
- 言語事例推論を用いたネットワーク障害対応ガイダンス
- ヘルプデスク支援システムにおける問題解決機能
- 1P-4 ヘルプデスク支援システムにおける言語事例検索 : 全体構成
- 1P-3 ヘルプデスク支援システムにおける言語事例検索 : 類似文照合
- 4M-2 ヘルプデスク事例活用のための言語分析方式
- 技術文書からの用語知識の自動獲得方式の検討(セッション2:情報のラベリングと知識の獲得,学生チャレンジ特集)
- 技術文書からの用語知識の自動獲得方式の検討(セッション2:情報のラベリングと知識の獲得,学生チャレンジ特集)
- D-5-8 表層格解析を用いた業務文書チェック方式(D-5.言語理解とコミュニケーション,一般講演)
- D-5-7 設計文書における同義語辞書自動作成方式 : 表記ゆれ抽出の検討(D-5.言語理解とコミュニケーション,一般講演)
- 10.Socio Sense : 過去9年に及ぶWebアーカイブから社会の動きを読む(第2部:情報の高信頼蓄積・検索技術等の開発,学と産の連携による基盤ソフトウェアの先進的開発)
- Webマイニングにおける語義曖昧性解消のための擬似負例を用いた能動学習
- 5L-6 ウェブからの分析対象文書抽出手法の検討(リーディングプロジェクト e-society:WebアーカイブとWebデータ解析技術,一般セッション,リーディングプロジェクト e-society)
- 素性論理に基づくXML文書ルール記述言語DRDLとインターネット文書交換システムへの応用(コンテンツ処理,新たな適用領域を切り開く情報システム)
- D-13-8 適合性フィードバックに基づいた文書チェックルール作成支援方式(D-13.知能ソフトウェア工学,一般講演)
- D-5-13 多次元絞込み検索機能によるテキストマイニング(D-5.言語理解とコミュニケーション,一般講演)
- D-5-6 意味構造抽出のための係り受け解析に関する考察(D-5.言語理解とコミュニケーション,一般講演)
- D-5-8 単語の連想関係に基づく概念検索方式の評価(D-5. 言語理解とコミュニケーション, 情報・システム1)
- 木・表構造間写像モデルに基づくXML入力画面自動生成方式(コンテンツ処理)
- 段落内共起情報を利用した文書自動分類方式
- 企業間文書情報共有におけるSGML文書内容検証方式
- WWWブラウザによるXML文書入力方式について
- SGML 文書の内容検証方式とその評価
- 全文検索システムにおける文字成分表の作成手法
- 全文検索における例文検索
- カタカナ異表記を考慮したユーザ辞書システムの拡張
- 専門用語辞書からの情報抽出と翻訳支援への適用
- 日英機械翻訳における数量表現処理の拡張
- 「韻」に基づく並列句の解析
- 実用性の向上を目指した機械翻訳システムの改良(2)
- 漢字に関する異表記の調査
- 実用性の向上を目指した機械翻訳システムの改良
- 日英機械翻訳システムMELTRAN-J/Eにおける空間的機能名詞の処理
- 日英機械翻訳システムにおける長文の解析
- 日本語の表層格構造の記述について(2) : 拡張格構造の扱い
- 日英機械翻訳における日本語解析前半部の一構成
- 日本語の表層格構造の記述について
- E-35 XML入力画面自動生成方式(自然言語処理応用,E.自然言語・文書)
- 電子申請におけるXML文書内容検証方式
- 次世代WebビジョンSemantic Webの技術動向
- 電子申請におけるXML文書内容検証方式 : 複数XML文書の内容間制約を記述する文書規約記述言語DRDL
- XML文書ワークフロー構築支援方式 : インターネットを用いた設計支援システムにおけるXML文書設計支援方式
- D-9-12 XML文書ワークフロー構築支援方式
- XMLによる電子申請書のメタ情報の表現について
- XMLスタイルシート作成ツールとワークフローへの応用
- 5P-2 企業間XML文書交換における文書規約の表現と利用について
- 5P-1 SGML文書のWWW入力・表示プログラム作成ツール
- XML文書のスタイルシート生成方式
- 4V-8 SGML文書の表組みレイアウト作成支援方式
- HTMLによるXML文書の入力方式について
- WWWブラウザによるSGML文書入力方式について
- 社内文書のSGMLによる標準化とイントラネットによる活用
- SGML文書の内容検証方式の検討
- リンク情報を利用したインターネット情報検索方式の検討
- B-6-42 ファクシミリ信号のIP伝送に関する一検討(B-6.ネットワークシステム,一般講演)
- B-6-9 VoIP音声多重伝送システムにおける冗長伝送に関する一検討(B-6.ネットワークシステム,一般講演)
- B-6-61 VoIP音声多重伝送システムの開発(2) : パケット多重方式(B-6.ネットワークシステム,一般講演)
- B-6-60 VoIP音声多重伝送システムの開発(1) : システム構成と多重制御(B-6.ネットワークシステム,一般講演)
- カタカナ異表記処理
- CYK法構文解析の一検討 : quick parsingについて
- 日英機械翻訳システムThalia-3 (〔三菱電機株式会社〕研究所50周年記念特集)
- データベースとProlog (プログラミング言語 Prolog)
- D-5-7 情報検索のタスク評価手法に関する一考察(D-5. 言語理解とコミュニケーション)
- インターネット情報監視システムの試作
- 目的指向型対話システムにおける対話制御方式
- 対話システムにおけるプラン説明文の生成
- JEIDA機械翻訳システム評価基準(利用者編) : ユーザのための評価項目の作成とアンケート調査による検証
- 既存紙文書からSGML文書への変換システムの試作
- 4N-4 アンケート自由記述のテキストマイニングに関する検討
- 共起情報を利用した新聞記事の自動分類結果の分析・評価
- 共起情報を利用した文書の自動分類
- 共起情報を利用した文書の自動分類について
- 文字成分表型全文検索システムのSGML文書検索への拡張
- CALS対応SGML文書管理技術
- D-5-1 インタネット全文検索と関連文書検索を用いたポータル構築支援
- ネットワーク上の文書テキスト検索・利用技術 (特集 IT時代のヒューマンインタフェース技術)
- 統計情報とコスト最小法に基づいた形態素解析
- タグ無しコーパスからの複合語データの自動抽出
- 自然言語事例ベースの仕様書文解析への応用
- E-16 単語共起照合に基づくクレーム抽出方式の改良(情報抽出,E.自然言語・文書)
- SGML 文書の内容検証について
- 製品情報広域検索システムにおけるデータベース自動構築方式
- 製品情報広域検索システムにおける検索方式
- D-10-9 発電プラント向け異常検出のための時区間の最適分割方式の提案(D-10.ディペンダブルコンピューテイング,一般セッション)