Webページ集合からのサイト再構成の一手法(<特集>高速ネットワークとマルチメディアアプリケーション)
スポンサーリンク
概要
- 論文の詳細を見る
近年,WebマイニングやWebページの有用性評価等の分野において,Webにおける最小の情報単位をページではなく「サイト」とすることが有効であるとする研究が増えている.これらの研究におけるサイトは,その一般的な解釈である特定の個人あるいは組織が作成・管理するひとまとまりのページ群であるとされているが,この定義を満たすサイトを大量のWebページ集合から再構成する有効な手段はいまだ確立されていない.そこで,筆者らは,(1)機械学習の一手法である決定木を用いてサイトのトップページとサイト間の境界とを決定すること,(2)決定木作成の際に考慮する属性として,URLのパス表記およびハイパーリンク構造で与えられるページ間の関係と,ページ内に記述される特定表現の出現状況の2つを扱うこと,を特徴とするサイト再構成方式を提案する.さらに,提案法のプロトタイプを実装し,約4,000万の日本語が記述されているWebページ集合からサイトを再構成して,その有効性を検証した.
- 社団法人情報処理学会の論文
- 2003-03-15
著者
-
佐藤 哲司
日本電信電話株式会社NTTコミュニケーション科学基礎研究所
-
佐藤 哲司
筑波大学
-
池田 哲夫
岩手県立大学大学院ソフトウェア情報学研究科
-
森 憲一
日本電信電話株式会社NTTサイバースペース研究所
-
竹野 浩
日本電信電話株式会社NTTサイバーソリューション研究所
関連論文
- 編集にあたって
- コンビニエンス・ストアにおける新商品発売時のデータマイニングを用いた売れ行き予測(データマイニング)
- CIP法とオプティカルフローDBに基づいた1枚の画像からの滑らかなアニメーション生成方法(画像生成・合成,イメージメディアクオリティ論文)
- 物理モデルに基づいた速度パターン群と偏微分方程式による1枚のテクスチャ・流体状画像からの時系列画像生成方法(画像生成・合成,イメージメディアクオリティ論文)
- 品詞の組合せの拡張による看護学分野での専門用語抽出再現率の改善(情報抽出,夏のデータベースワークショップDBWS 2006)
- 品詞の組合せの拡張による看護学分野での専門用語抽出再現率の改善(情報抽出)
- 5S-1 単語の反復度と共起頻度に基づく関連記事の提示方法(知識発見・検索,学生セッション,データベースとメディア)
- 知識空間の相互推定に基づく個人間情報推薦方法の提案(モデル/理論,ソフトウェアエージェントとその応用論文)
- 視線に基づくサブゴール決定過程を取り入れた歩行者モデル(ユビキタスシステム,マルチメディア,分散,協調とモバイル(DICOMO2005))
- データ工学論文特集の発行にあたって(データ工学論文)
- 移動軌跡と頭部の向きに基づく歩行者の行動意味づけ方法(モバイルコンピューティング, マルチメディア, 分散, 協調とモバイル(DICOMO2004))
- 個人間情報共有システムを用いた情報推薦に関する一考察(テキストマイニング)
- 大量な時系列データストリームの類似検出手法(テーマセッション: 時系列・大規模メディア処理, データ工学とメディア理解との融合)
- 移動軌跡データベースにおける位置匿名性(セッション1 : 移動体通信とマルチキャスト)
- 個人の推薦に基づく個人間情報共有モデル
- 分散型移動軌跡データベースのためのインデクス構築手法(セッション1 : データベース基盤技術)
- 実世界中で行動する人間の移動軌跡データからの特徴抽出(位置情報・動線解析(1))
- オントロジを利用した会話理解手法の提案(自然言語情報処理研究会と一部合同開催 : NL・SLP合同開催 : 音声対話1)
- オントロジを利用した会話理解手法の提案
- Webページ集合からのサイト再構成の一手法(高速ネットワークとマルチメディアアプリケーション)
- R&Dホットコーナー セマンティックWebの動向と近似オントロジ変換の考案
- Web文書のページタイプを用いた適応約分類と試作システムの評価(Webインテリジェンスとインタラクション)
- モバイル環境に適した検索結果の提示法に関する研究
- コンビニにおける新商品発売時の売上データマイニング : 目的変数と説明変数の導出(データマイニング)(夏のデータベースワークショップDBWS2004)
- コンビニにおける新商品発売時の売上データマイニング : 目的変数と説明変数の導出(セッション8B : データマイニング)(夏のデータベースワークショップ : DBWS2004)
- 地盤応答震度推定法を組み込んだ地震災害時初動活動支援システムの提案(社会・人間系の情報システム,情報社会の基礎を築く情報システム)
- 概念ベースから基本語彙知識ベースへ (ことば工学研究会(第16回)テーマ:ことばの辞書:概念ベースとその周辺)
- 編集にあたって
- 編集にあたって
- 大量な時系列データストリームの類似検出手法(テーマセッション: 時系列・大規模メディア処理, データ工学とメディア理解との融合)
- Wikipediaにおけるエントリ粒度の評価
- 28 常時微動H/Vスペクトル比を用いた細密度計測震度分布推定法の提案
- 常時微動データベースを用いた地震の細密度震度予測方法(A.被害予測と緊急対応)
- グラフモデルの提案とテキスト検索システムへの適用による評価
- 専門外の患者を抱えた医師のための, 診断や治療方針の遠方の医師への相談システム(医療データ, 夏のデータベースワークショップDBWS2005)
- 専門外の患者を抱えた医師のための, 診断や治療方針の遠方の医師への相談システム(医療データ, 夏のデータベースワークショップ2005)
- 文書空間ナビゲーションのための出次数制約付き有向グラフ生成手法
- 次数制約を加えた共起語グラフに基づくキーワード間ナビゲーション
- 編集にあたって
- 編集にあたって
- モバイル環境に適した検索結果の一覧性向上に関する一検討
- 発信協調型ナレッジ共有システムの提案
- 発信者によるコンテンツ登録・流通制御型ポータル構成方法
- 「話の展開」を推測する方式について (ことば工学研究会(第22回)テーマ:ことば:論理VS感性)
- 商品購入の前後関係を考慮したレコメンド方式と評価(インターネット環境のコンテンツ技術及び一般)
- D-19 移動軌跡データに対する類似度検索手法(データ編成と高速化,D.データベース)
- 出次数制約付き有向グラフを用いた関連語による文書空間ナビゲーション手法
- 主題グラフ及び関連度情報からの単語重要度付与を用いた情報検索システムの提案
- 主題グラフ及び関連度情報からの単語重要度付与を用いた情報検索システムの提案
- コミュニティQAにおける質問の多面的評価法の検討
- 虹雲ノート : クラウド上でのメディア処理の連携システム(テーマセッション,大規模マルチメディアデータを対象とした次世代検索およびマイニング)
- 虹雲ノート : クラウド上でのメディア処理の連携システム(テーマセッション,大規模マルチメディアデータを対象とした次世代検索およびマイニング)
- フォルダ・プログラミング環境におけるエンドユーザインタフェースに関する一考察
- 既存レシピを活用した並行調理支援に関する提案(調理支援,データ工学と食メディア)