大量文書向けのクラスタリング手法の評価
スポンサーリンク
概要
- 論文の詳細を見る
近年, 電子化文書の流通が増大し, 大量の文書情報の中から必要なものを検索する必要性が増してきており, 類似性を基準に大量の文書をクラスタリングする技術が重要となってきた。既に, 文書中の語の出現確率を用い, 文書集合をベイジアンクラスタリングする手法が提案されているが, 同手法の場合, 生成中の全クラスタ対においてクラスタどうしを一旦マージする必要があるため, 大量の文書集合を処理することが困難になる。そこで筆者らは, 計算量を削減することを目的とした大量文書向けのクラスタリング手法を提案・実装して, 提案手法と従来手法によるマージ回数の比較を行った。本稿では, 提案手法のマージ回数の推定方法について考察し, 実測値との比較結果を報告する。
- 一般社団法人情報処理学会の論文
- 1997-09-24
著者
関連論文
- タイミングを考慮したリンク解析によるWebトラッキングサイト検知とそのブラックリスト生成
- 2D-5 楽曲類似検索における特徴量抽出の高速化(音声・音楽情報処理,一般セッション,人工知能と認知科学)
- 構文規則に基づく技術論文からの比較情報抽出に関する検討
- 屋外無線LANを用いた多人数リアルタイム運動計測システムに関する実証実験報告(ユビキタス/ブロードバンドネットワークの品質とメディア品質、品質評価モデル、信頼性とセキュリティ、コンテンツ、インセンティブ、一般)
- サ変名詞を含む複合名詞のアスペクト演算に関する一考察
- PHMIPv6によるハンドオフ管理の性能向上に関する研究(モバイルネットワーク,有線/無線シームレスネットワーク,ネットワーク制御,無線通信一般)
- 網管理エキスパートシステムのためのSNMP通信スタブ生成ツールの実装
- 網管理エキスパートシステムのためのSNMP通信スタブ生成ツールの設計
- D-15-25 類似検索技術を応用した学術論文情報配信システム
- 学習分野別の共起語情報を用いた学習情報の検索手法の検討
- モバイルコミュニケーション環境においてマルチソースストリーミングを実現するためのハンドオフ方式の提案(フォトニックネットワークシステム,光ルーティング,ブロードバンドアプリケーション,一般)
- DNS監視による異常クライアントの検知(オーバーレイネットワーク,VPN,DDoS,ネットワークセキュリティ,P2P通信,ネットワークソフトウェア,一般)
- モバイルコミュニケーション環境においてマルチソースストリーミングを実現するためのハンドオフ方式の提案(モバイルネットワーク,トラヒック,ポストIPネットワーキング,プロトコル・ネットワーク制御,ネットワーク予測・解析,一般)
- SSL/TLSで暗号化されたWeb通信に対する侵入検知システム(セキュリティ/危機管理,新しいパラダイムの中での分散システム/インターネット運用・管理)
- B-7-15 大規模DNSサーバのための異常検知方式の提案(B-7. 情報ネットワーク,一般セッション)
- 圧縮文字列における最長共通部分文字列および回文を求める多項式時間アルゴリズム
- VANET環境における協調衝突回避システムの改善(無線,オーバーレイネットワーク,VPN,DDoS,ネットワークセキュリティ,P2P通信,ネットワークソフトウェア,一般)
- モバイルネットワークにおけるマルチソースストリーミング方式の提案(TCP,配信サービス,オーバーレイネットワーク,VPN,DDoS,ネットワークセキュリティ,P2P通信,ネットワークソフトウェア,一般)
- ページ閲覧時間を考慮したWebログマイニング手法の提案 (「Web Intelligence」および一般発表)
- AICを用いた因果関係抽出手法の性能評価
- 2項分布モデルを用いた実時間疎通劣化検出手法の評価
- テキスト検索のための相関ルールの発見
- 因果関係発見手法の性能評価実験
- 因果関係発見手法の検討
- 半導体歩留り解析へのデータマイニング適用手法の提案
- 1P-5 2つの類似尺度を利用する類似文書決定手法の検討
- GAを用いた文書クラスタリング
- 局所定常モデルを組み合わせた電話トラヒックの監視手法
- 文集合のトップダウンクラスタリングへのMDL基準の適用
- 2U-2 類似検索を応用した特許通知システムの試作
- 類似検索における単語寄与度に基づく重要語選択手法の検討
- 文書集合のトップダウンクラスタリングへのMDL基準の適用
- 遺伝子情報の共通部分に注目したGAの高速化手法の検討 : 大量文書のクラスタリングにおいて
- 実時間疎通劣化検出方式のための2項分布モデル更新手法
- 文書構造を利用した類似検索手法の検討
- 類似度計算における低頻度語除去による精度向上の評価
- GAを用いた文書のベイジアンクラスタリングの高速化
- テキストの絞り込み検索のための特徴抽出手法の検討
- 大量文書向けのクラスタリング手法の評価
- ベイジアンクラスタリング用類似値評価関数の高速化の検討
- 類似ドキュメントの発見手法の検討
- C言語プログラム検査ツールの実装と適用結果
- ユーザの意図抽出結果に基づくテキスト生成
- 携帯電話向けにテレビ番組の要約コンテンツを配信するためのオーサリングツールの開発
- 擬似学習集合の生成による決定木の再構成手法と学習特性
- 実時間エキスパートシステム
- スタック型忘却随伴メモリメンテナンスシステムの動特性について
- テキスト検索のための相関ルールの発見
- 不完全な履歴情報からの状態遷移経路同定方法の提案
- C-PRSを用いた分散ESの試作
- 解析木データベースを用いた単語間の共起関係の抽出およびその構文解析への利用
- 正しい構文解析木による禁止パターンの学習
- 電子メールを利用した機械翻訳システム
- 知識の更新と忘却機構に関する検討
- 事例に基づく定性的知識から定量的知識への変換手法の検討
- 知識ベースの保守支援機能に関する検討
- ガバナ間の共起関係学習のための基礎実験
- 楽曲類似検索のための圧縮オーディオファイル形式からの高効率特徴抽出手法
- 学習分野別の共起語情報を用いた学習情報の検索手法の検討
- E-023 テキストマイニングを用いたサッカー勝敗分析記事からの評判分析(E分野:自然言語・音声・音楽,一般論文)
- F-048 系列ルールマイニングにおいて時間差を考慮する確信度の提案(人工知能・ゲーム,一般論文)
- 履歴診断エキスパートシステムのための状態推定方式の提案
- 状態監視用エキスパートシステムにおける履歴情報の分割管理法の提案
- 時間論理に基づく障害診断方式に関する一検討
- シミュレーテッドアニーリングを用いた定量的知識から定性的知識への写像関数最適化手法の評価
- シミュレーテッドアニーリシグを用いた定量的知識から定性的知識への写像関数の最適化
- 時系列データを定性的に記述するための区間解釈法の検討
- 国際電話網の悪化検出/原因推定のための実時間網運用支援エキスパートシステム
- 実時間網管理への定性的診断知識の適用手法
- 実時間網管理への定性的診断知識の適用手法
- G-020 ベイジアンネットワークを用いた生活習慣分析(G分野:生体情報科学,一般論文)
- 2ZL-3 項目応管理論に基づく健康診査における質問項目分析(バイオインフォマティクスと医療,学生セッション,コンピュータと人間社会,情報処理学会創立50周年記念)
- 5W-2 構文規則に基づく特許文書からの比較情報抽出に関する検討(言語情報抽出,学生セッション,人工知能と認知科学,情報処理学会創立50周年記念)
- 3W-2 アンサンブル学習におけるHoeffding Treeを用いた動的な分類器統合法(学習(2),学生セッション,人工知能と認知科学,情報処理学会創立50周年記念)
- E-006 技術論文からの比較情報抽出(自然言語・音声・音楽,一般論文)
- RF-005 数値データストリームからの決定木導出(人工知能・ゲーム,査読付き論文)
- RA-002 オリエンテーリングにおける最適経路導出問題のための走行時間予測モデル(モデル・アルゴリズム・プログラミング,査読付き論文)
- 漢字仮名変換を用いた仮名漢字変換率評価
- 漢字仮名変換を用いた仮名漢字変換率評価 : 大規模テキストを対象とした仮名漢字変換評価システムの構成と性能評価
- アスペクト遷移モデルの提案
- 属性集合が可変な場合における決定木学習方式
- パケット通信網利用者支援エキスパ-トシステム
- 深い知識利用局面において必要とされるユーザインタフェースについて
- 決定木の符号長計算方式の検討
- 適応型リアルタイムプランニングを用いた状態依存型ダイナミックルーティングに関する検討
- リアルタイムプランニングにおける応答時間特性の解析手法
- 適応型リアルタイムプランニングを用いた状態依存型ダイナミックルーティングに関する検討
- 大量文書向けのクラスタリング手法の評価
- 時区間論理に関する一検討(4)
- 時区間論理に関する一検討(3)
- 時区間論理に関する一検討(2)
- 半導体歩留り解析に回帰木分析を適用するための仮説検証手法の提案
- 1-5 インターネットコンテンツの配信・管理技術(1.情報爆発時代における通信の果たす役割とその未来像,情報爆発時代に向けた新たな通信技術-限界打破への挑戦-)
- 半導体歩留り解析のための回帰木に基づく仮説検証手法の提案
- 能動学習における決定境界の安定性の検討(学習法,統計推理,データベース,一般)