文ベクトル集合モデルに基づく文書類似尺度の評価
スポンサーリンク
概要
- 論文の詳細を見る
類似文書検索、分類、クラスタリング等の近年の計算機による大量文書処理において、文書間の類似度計算には、文書を文書に含まれる単語を次元とするベクトルとして扱うベクトル空間モデルを用いることが主流である。しかしながらベクトル空間モデルでは、文、段落といった文書の構造情報を扱うことが難しいため、文書の構造情報を反映した文書モデルおよび類似尺度が望まれる。本稿では、近年提案された文ベクトル集合モデルに基づく、新しい文書類似尺度を提案する。BMIR-J2の新聞記事データおよび特許データを用いて文書類似尺度の比較実験を行った結果、従来のベクトル空間モデルと比較して、提案する文書類似尺度が、より文書の構造的類似性を反映していることを確認した。
- 一般社団法人情報処理学会の論文
- 2002-05-21
著者
-
北内 啓
株式会社NTTデータ
-
北内 啓
株式会社nttデータ技術開発本部ビジネスインテリジェンス推進センタ
-
城塚 音也
株式会社NTTデータ技術開発本部ビジネスインテリジェンス推進センタ
-
城塚 音也
Nttデータ
-
城塚 音也
株式会社nttデータ 開発本部
関連論文
- マルチエージェントアーキテクチャに基づく音声対話支援システム
- 遠隔会議を対象にした音声対話モニタリングによる対話支援システム(次世代ヒューマンインタフェース・インタラクション)
- 対話音声を対象とした話題同定の検討
- マルチメディア端末上における音声対話支援
- エージェントアーキテクチャに基づいた音声対話支援システムの構築
- 携帯端末に対応した音声対話インタフェースの検討
- 異種情報環境で利用できる会議室予約システムにおける電話音声対話機能の評価
- 意味情報に基づく検索と全文検索の統合
- 意味情報に基づく検索と全文検索の統合
- 音声対話モニタリングによる対話の知的支援機構の検討
- 相談業務を対象とした対話支援環境の構築
- 歴史オントロジー構築のための史料からの人物情報抽出
- 文ベクトル集合モデルに基づく文書類似尺度の評価
- 誤り駆動型の素性選択による日本語形態素解析の確率モデル学習
- 語彙的結束性と単語重要度に基づくテキストセグメンテーション
- テキストマイニングにおける概念関係視覚化方式の検討
- テキストマイニングにおける概念関係視覚化方式の検討
- 審査業務の業務分析手法の提案
- 審査業務の業務分析手法の提案