大規模文献集合に対して階層的クラスタ分析法を適用するための単連結法アルゴリズム
スポンサーリンク
概要
- 論文の詳細を見る
短報In the 1960s and 1970s, techniques for clustering a set of documents, in order to improvethe effectiveness or efficiency of information retrieval systems, have been widely explored.Similar attempts have recently been made by many researchers to allow the visualisation ofsearch results, to provide browsing based search modes or to enhance performance in searchingvery large collections. The purpose of this paper is to develop an algorithm for hierarchicalclustering that can work for very large document collections. The algorithm is based on acombination of two ideas proposed by other researchers to save time and space in the processof hierarchical clustering; (1) the use of an inverted file for reducing the number of documentpairs for which a similarity degree is calculated, and (2) a procedure for constructing adendrogram based on single-link method from similarity data recorded on disk and not themain memory. ln this paper, the algorithm is experimentally applied to a documentset consisting of about 10,000 bibliographic records, and the processing time is analyzedempirically. ln addition, the effects of removing words frequently appearing in documents areexamined. As a result, we find that removing such words enable us to greatly reduce theprocessing time without significant change in .the resulting set of clusters. Finally, an empiricalcomparison between the single-link method and the single-pass algorithm (leader-followeralgorithm) is attempted.
- 三田図書館・情報学会の論文
著者
関連論文
- NTCIR-3言語横断検索タスクの分析 : プーリングを中心として
- 大規模テストコレクション構築のためのプーリング : NTCIR-3言語横断検索タスクの分析(コーパス分析・言い換え)(セマンティックウェブと自然言語処理その他一般)
- 座長による各担当ブロックの総評及び感想
- 情報・情報システムの評価の概要と問題点(図書館・情報活動と)
- インターネット時代における統制語彙の意義と役割(統制語彙・シソーラスの現在)
- 意味論からの情報システム-ユビキタス・オントロジ・セマンティック, 斉藤孝著, 東京 中央大学出版部, 2006.4, 21.7cm×15.6cm, 294p, ISBN: 4-8057-6159-8, 定価 3,150円(本体3,000税別)
- Peter Hernon and Robert E. Dugan, 『図書館の価値を高める:成果評価への行動計画』, [An Action Plan for Outcomes Assessment in Your Library], 永田治樹ほか共訳, 丸善, 2005, 268p.
- データベース構築(座長による各担当者ブロックの総評および感想)(INFOSTA シンポジウム2003)
- 次世代文書管理システムADOMASの開発に向けて
- NTCIRへの参加から学んだこと(情報検索システムの力くらべ : テストコレクションによる評価)(情報検索研究者にとってのテストコレクションと評価ワークショップ)
- 情報検索技術とテストコレクション(情報検索システムの力くらべ : テストコレクションによる評価)
- 情報検索の方法
- 記録/文書データベースにおける検索方法-文献検索理論からの接近-
- 計量書誌学的法則に関するモデルと理論
- 貸出回数による図書の分布のモデル化--経年変化を予測するモデルの拡徴の試み
- 大学図書館における館内利用と館外貸出との相関関係についての実証分析
- ビブリオメトリックスの現象を記述する確率分布の比較
- 大学教育における情報化:学部・学科の名称とカリキュラムの分折 ( 『情報について考える』)
- ビブリオメトリックスの諸法則を記述する新しい確率分布に関する考察 : いくつかの確率分布のデータへの適合度の比較 : 第19回ドクメンテーション・シンポジウム発表内容
- 複合語の解析による語の上位一下位関係の自動構築
- シソーラスの比較評価 : 「概念体系の提示」の性能を中心に
- シソーラスの評価とその問題点 : 第18回ドクメンテーションシンポジュウム発表内容
- 探しもの見つけます : 情報化社会に役立つ情報検索の技術動向
- 三輪眞木子, 『情報検索のスキル』, 中央公論新社, 2003.9, 214p., 740円, ISBN4-12-101714-5
- Mean Average Precisionの再考 : ランキング出力の評価尺度についての考察(INFOSTAシンポジウム2001)
- 計量情報学 - 図書館/言語研究への応用
- 日本語テキストに対する統計的検索手法の性能比較 : テストコレクションによる実証
- 第47回日本図書館情報学会研究大会シンポジウム記録 : インターネット時代における情報検索 : 研究・教育の2つの側面からの新たな展開
- 採録論文数と被引用回数による社会科学分野のコア・ジャーナルの特定について
- Taverekere Srikantaiah, Herbert H. Hoffman著 三浦 逸雄 訳 ライブラリアンのためのやさしい統計学 : 発行丸善(株)1994. 12. 24 A5版,181p.
- A-7 社会科学文献情報の生産水準の国際比較(社会知識)
- 文献データベース(IBSS)の計量書誌学的分析に基づく社会科学分野の学際領域の析出(テーマB-(2):分類・シソーラス)
- シソーラスの概念関係に基づく社会科学分野の主題構造の分析(テーマB-(2):分類・シソーラス)
- 国際協力による学際的書誌デ-タベ-スの品質と特性--IBSSデ-タベ-スによる社会科学分野の事例研究
- 情報アクセス技術の性能評価のための研究基盤NTCIR : 言語横断検索の創成と展開(NTCIR特別セッション)
- 情報アクセス技術の性能評価のための研究基盤NTCIR : 言語横断検索の創成と展開(NTCIR特別セッション)
- NTCIR-3 言語横断検索タスクの分析 : プーリングを中心として
- 大規模テストコレクション構築のためのプーリング : NTCIR-3言語横断検索タスクの分析
- 検索実験における評価指標としてのMean Average Precisionの性質
- 文書クラスタリングの技法 : 文献レビュー
- 大規模文献集合に対して階層的クラスタ分析法を適用するための単連結法アルゴリズム
- 検索実験における評価指標としての平均精度の性質(情報の検索とテストコレクション)
- 情報検索の発展過程と新たな動き (情報検索の新潮流)
- 規模要因を考慮した公共図書館の貸出に関する数量的モデル
- 記録/文書データベースにおける検索手法: 文献検索理論からの接近 (1997年大会予稿集)
- ディジタル情報時代における大学図書館
- FID/ARM (Archives and Records Management) (第47回FID東京大会あれこれ)
- 蔵書管理のための数量的アプローチ : 文献レビュー
- 利用統計を用いた蔵書評価の手法 (特集:図書館の評価)
- 電子的な図書館サービスの評価への取り組みとその課題(図書館サービス評価とE-metrics)
- 図書館経営の評価法--図書館パフォーマンス指標の利用について (特集:評価/経営する図書館へ向けて)
- 検索結果の適合度順出力のための評価指標 : 平均精度の再考
- 論文標題に基づく分類記号とディスクリプタの自動付与のための統計的手法
- 図書館情報学における自動分類と自動索引作成のための統計的手法:文献レビュー)
- 文書検索におけるクエリーの拡張方法 : 大域的分析と局所的分析の実証比較
- 文献の適合度に関する目標値に基づくフィードバック手法
- Mean Average Precisionの再考--ランキング出力の評価尺度についての再考 (INFOSTAシンポジウム2001--新世紀のスタートに集う) -- (情報の発信と評価)
- 谷口祥一著, 『メタデータの「現在」』, 勉誠出版, 2010, 154p., (ネットワーク時代の図書館情報学)
- 情報検索における評価方法の変遷とその課題
- 教育講演 インターネット時代の情報検索とライブラリアンの役割 (特集 日本病院ライブラリー協会2012年度第1回研修会)