Framework for Building a High-Quality Web Page Collection Considering Page Group Structure
スポンサーリンク
概要
- 論文の詳細を見る
We proposed a framework for building a high-quality web page collection considering page group structure with two step processes: the rough filtering and the accurate classification. In both processes, we apply the idea of local page group structure that is represented by the relation between a target page and a surrounding page based on the connection types and the relative URL hierarchy. In this paper, we use researchers' homepages as an example of target categories. In the rough filtering, we proposed a method for comprehensively gathering all potential researchers' homepages from the web with as few noise pages as possible by using property-based keyword lists according to four page group models (PGMs) based on the page group structure. The experiment results show that it reduces the increase of gathered page amount to an allowable level and gathers a significant number of positive pages that could not be gathered with a single-page-based method. In the accurate classification, we proposed a textual feature set for support vector machine (SVM). The surrounding pages are grouped based on the page group structure, an independent feature subset is generated from each group, and then the feature set is composed by concatenating the feature subsets. An evident improvement of classification performance is shown by an experiment. Using in combination a recall-assured classifier and a precision-assured classifier each of which is obtained by tuning the SVM with the proposed feature set, we next build a three-way classifier to accurately select the pages that need manual assessment to assure the required quality. The effectiveness is shown with the reduction of the manual assessment page number.
- 一般社団法人情報処理学会の論文
- 2006-11-16
著者
-
大山 敬三
学術情報センター
-
大山 敬三
国立情報学研究所
-
大山 敬三
National Institute Of Informatics The Graduate School For Advanced Studies(sokendai)
-
Wang Yuxin
National Institute Of Informatics
-
Keizo Oyama
National Institute of Informatics
-
Oyama Keizo
National Institute of Informatics
-
大山 敬三
国立情報学研究所 コンテンツ科学研究系
関連論文
- オンラインジャーナル編集・出版システムの開発
- 語の出現位置の視覚的記憶に基づく既読文書の問合せに於ける索引構造の考察
- オンラインジャーナル出版システム
- 入力要素を保存する集約に基づくビューへの問合せ最適化手法
- 産学連携に関するWeb情報の分析 : 大学サイトの事例研究(第17回(2009年度)年次大会(研究報告会&総会))
- 論文情報ナビゲータの構築(セッション5 : 文書データベース)
- 論文情報ナビゲータの構築(セッション5 : 文書データベース)
- 大規模学術情報データベースに適した情報検索システムの開発
- 情報検索サービスNACSIS-IRの新たな展開 (情報検索の新潮流)
- 学術情報環境の変化に対応する学術出版の道しるべ SIST 07/08の改訂による学術雑誌・学術論文の新たな作成基準
- 総合目録オンラインDBと情報検索システムの連携方式 (学術情報分野)
- 学術情報センターにおけるオンラインDBとIRシステムの連携 : 目録系データベースの構成
- インターネットに適応した全文データベース検索システムの拡張 : 文書画像データへのアクセス:鹿児島大学教養部紀要を例として
- オンラインジャーナル出版システム
- 文献の論理構造を考慮した全文検索システム
- 「情報処理学会論文誌:データベース」の編集にあたって
- 「情報処理学会論文誌:データベース」の編集にあたって
- 「情報処理学会論文誌 : データベース」の編集にあたって
- 「情報処理学会論文誌 : データベース」の編集にあたって
- 「情報処理学会論文誌 : データベース」の編集にあたって
- 「情報処理学会論文誌 : データベース」の編集にあたって
- 「情報処理学会論文誌 : データベース」の編集にあたって
- 「情報処理学会論文誌:データベース」の編集にあたって
- Web Page Classification Based on Surrounding Page Model Representing Connection Type and Directory Hierarchy
- Combining Page Group Structure and Content for Roughly Filtering Researchers' Homepages with High Recall (特集:情報融合)
- Framework for Building a High-Quality Web Page Collection Considering Page Group Structure
- Framework for Building a High-Quality Web Page Collection Considering Page Group Structure
- 大規模データベースを利用したリンケージシステムの提案と実装
- 「情報処理学会論文誌 : データベース」の編集にあたって
- NACSIS-IRの検索機能の高度化
- 周辺ページを活用したウェブページコレクションの効率的な構築
- Web データを対象としたナビゲーション指向検索用テストコレクション─ 設計と特性
- NTCIR-3 WEB : Web 検索のための評価ワークショップ(電子文書処理)
- Web検索のための評価ワークショップに適したシステム評価手法
- Web検索チャレンジの課題 : NTCIRワークショップ3の新タスク
- レコード同定問題に関する研究の課題と現状(データ工学論文)
- SAIKAM : インターネット上での協調的な対訳辞書構築環境の実現
- インターネット上の協調対訳辞書構築プロジェクト"SAIKAM"
- インターネット上の協調対訳辞書構築プロジェクト "SAIKAM"
- 複合的メタデータによる文化情報資源へのアクセス可能性の提示(セッション3,学生チャレンジ特集)
- 複合的メタデータによる文化情報資源へのアクセス可能性の提示(テーマ:学生チャレンジ特集)
- 編集にあたって
- 特集「情報融合」に向けて
- 編集にあたって
- 編集にあたって
- 編集にあたって
- 編集にあたって
- 特集「情報融合」に向けて
- 編集にあたって
- 複数書誌データベース統合における重複エントリーの高速検出法(セッション5 : 文書データベース)
- Evaluation Methods for Web Retrieval Tasks Considering Hyperlink Structure(Special Issue on Text Processing for Information Access)
- 編集にあたって(「情報処理学会論文誌 : データベース(電子情報通信学会データ工学研究専門委員会共同編集)」)
- 電子情報通信学会データ工学研究専門委員会による「情報処理学会論文誌 : データベース」への共同編集参加開始について(「情報処理学会論文誌 : データベース(電子情報通信学会データ工学研究専門委員会共同編集)」)
- 編集にあたって
- 電子情報通信学会データ工学研究専門委員会による「情報処理学会論文誌:データベース」への共同編集参加開始について
- 複数書誌データベース統合における重複エントリーの高速検出法(セッション5 : 文書データベース)
- 文書画像データからの書誌情報の抽出とマッチング
- 検索クエリにおける修飾構造の調査(文型と意味)
- NTCIR-1 : 情報検索システム評価用テストコレクション構築の方針と実際
- 学術文献画像の書誌情報の近似マッチング法
- 異種データベース間でのレコード照合に関する研究動向
- 学会誌電子化の現状と将来
- TSS接続による仮想画面転送(VTSS)方式
- 第57回日本図書館情報学会研究大会シンポジウム記録 : 「情報検索サービスの将来像:情報提供機関のこれからの役割と課題」
- 検索クエリを用いた情報の下位範疇化(「Webインテリジェンス」及び一般)
- B13 NLMDTDからJATSへ : NLM DTDからJATSへ(セッションB1情報システム・流通1,一般発表概要,第8回情報プロフェッショナルシンポジウム)
- Combining Page Group Structure and Content for Roughly Filtering Researchers Homepages with High Recall
- Combining Page Group Structure and Content for Roughly Filtering Researchers Homepages with High Recall
- 畳語の頻度分布調査(大規模言語資源による言語知識獲得)
- NLM DTDからJATSへ 日本語学術論文のXML編集
- 短文投稿型WebサービスからのQ&A型知識抽出に向けて (思考と言語)
- 「情報検索の技術とテストコレクション」の刊行にあたって(情報の検索とテストコレクション)
- 大規模テストコレクション構築のためのプーリングについて : NTCIR-1の予備テストの分析
- ウェブページのツイート行動への関心反映度に関するブラウズ行動のコンテキストに注目した分析
- ウェブページのツイート行動への関心反映度に関するブラウズ行動のコンテキストに注目した分析
- Web視聴記録等を用いた利用者行動因子の抽出(「Webインテリジェンス」及び一般)
- Efficient Top-k Document Retrieval for Long Queries Using Term-Document Binary Matrix — Pursuit of Enhanced Informational Search on the Web —
- ミニブログ中の対話メッセージを対象としたQ&A型知識抽出
- Context Oriented Analysis of Interest Reflection of Tweeted Webpages based on Browsing Behavior (データ工学)
- 第21回年次大会予稿 ミニブログ中の対話メッセージを対象としたQ&A型知識抽出 (特集 第21回(2013年度)年次大会(研究報告会&総会))
- 短文投稿型WebサービスからのQ&A型知識抽出に向けて(言語と学習・場の供創・意味の創発)
- Web Page Classification Based on Surrounding Page Model Representing Connection Type and Directory Hierarchy
- Web Page Classification Based on Surrounding Page Model Representing Connection Type and Directory Hierarchy
- ウェブページのツイート行動への関心反映度に関するブラウズ行動のコンテキストに注目した分析(twitter・ソーシャルネットワーク,ビッグデータを対象とした管理・情報検索・知識獲得及び一般)