8.100億規模のWebページ収集・分析への挑戦(第2部:情報の高信頼蓄積・検索技術等の開発,<特集>学と産の連携による基盤ソフトウェアの先進的開発)
スポンサーリンク
概要
- 論文の詳細を見る
Webページ数は,2006年11月時点で537億ページと推測されている.我々は,2004年1月〜2006年7月の間に,全世界の5,548万台のWebサーバからテキストのみを対象に収集を行い,ユニークなWebページ数として約144.5億ページを収集した.また,収集済みWebページに対して,トップレベルドメイン分布,記述言語分布,Webサーバの地理的位置の解析,バックリンク解析やPageRank計算を進め,Web空間の現状分析を行った.さらに,Webページの解析がビジネスに利用可能であることを示すために,企業のWebサイト上の活動を可視化するe企業調査プロトタイプを構築し,企業の特徴,戦略,評判などの抽出を行った.
- 社団法人情報処理学会の論文
- 2008-11-15
著者
-
山名 早人
早稲田大学
-
山名 早人
早稲田大学大学院理工学研究化情報科学専攻
-
村岡 洋一
早稲田大学大学院理工学研究科情報ネットワーク専攻
-
村岡 洋一
早大
-
松井 くにお
米国富士通研究所
-
橋本 三奈子
富士通(株)
-
赤羽 匡子
富士通(株)
-
萩原 純一
アクセラテクノロジ(株)
-
村岡 洋一
早稲田大 理工
-
岡部 洋一
東京大学工学部
-
村岡 洋一
早稲田大学
-
岡部 洋一
日本ビクター株式会社ビデオ事業部
-
YAMANA Hayato
Electrotechnical Laboratory
-
岡部 洋一
東京大学
-
Yamana Hayato
Dept. Of Computer Science Waseda Univ.
-
山名 早人
早稲田大学理工学術院
-
村岡 洋
早稲田大学
関連論文
- OLTPのための自動グループコミット手法の提案(ストレージ 並列分散データベース,データ工学論文)
- 安価なWebカメラを用いたModel-Based視線推定 (ヒューマン情報処理)
- 配列プロファイルを利用したドメインリンカー予測(DNA・タンパク質構造)
- 手書き数式入力システムMathBox(テーマセッション4(数式),文字・文書の認識・理解)
- 単独記事フィルタリングを用いた時系列ニュース記事分類法の提案(テーマ,膨大なデータから学ぶもの)
- 多数のランドマークを用いるためのALTアルゴリズム拡張
- Hit Count Dance--検索エンジンのヒット数に対する信頼性検証
- Webページを対象とした著作権違反自動検知システム(ウェブ属性抽出,夏のデータベースワークショップDBWS 2006)
- Webページを対象とした著作権違反自動検知システム(ウェブ属性抽出)
- 選択注視点における特徴ベクトルの階層化クラスタリング(テーマ関連セッション2)