部分文字列の頻度分布に基づいた同一テンプレートを持つWebページの自動収集(Webマイニング)(テーマ:「Webマイニングによる情報活動と自然言語処理」その他一般)

スポンサーリンク

概要

論文の詳細を見る
クローラー等が収集した大量のWebページから、テンプレートを共有するWebページ群を発見するデータ発見問題について考察する。各テンプレートから生成されたページ群は情報抽出やラッパー生成アルゴリズムの入力として利用できる。本稿では、この問題に対し部分文字列増幅法と呼ばれる線形時間アルゴリズムを利用し、実データを用いた実験により有効性を示す。この手法はコンテンツを記述する言語の頻度分布を利用するが、実際に9ヶ国の言語に対し分布を調べ、言語非依存性も示す。さらに、ノイズが混入する場合はノイズを分離する境界値の設定が必要だが、自然言語に普遍的な特徴を用いることで、設定の一部を自動化する方法を提案する。
一般社団法人情報処理学会の論文
2004-09-16

著者

関連論文

もっと見る

スポンサーリンク