周辺ページを活用したウェブページコレクションの効率的な構築
スポンサーリンク
概要
- 論文の詳細を見る
本論文では局所周辺ページを活用してより少ない人手判定コストで高品質のウェブページコレクションを構築するための方式を示し,例として研究者ホームページを対象カテゴリに用いた実験を通して提案方式の有効性を示している.本方式は簡略フィルタリングと精密分類の二つのプロセスからなっている.両プロセスにおいて,エントリページと周辺ページの間の接続タイプと相対URL ディレクトリ階層に基づく関係を表現した論理ページグループ構造概念を導入し,この概念に基づき局所周辺ページの内容を利用している.簡略フィルタリングでは,該当する可能性のあるページをウェブから網羅的かつ効率的に収集するため,属性キーワードリストを用いた手法を提案している.ページグループ構造に基づく4 種類のページグループモデル(PGM)を用いて周辺ページからキーワードをマージしている.実験結果により,周辺ページを用いない単一ページ手法と比較して,周辺ページをそのまま用いると非該当ページが多く含まれてしまうが,本手法によりその増加を許容可能なレベルに抑えられること,及び単一ページ手法では収集できなかった多くの該当ページを収集できることが示された.精密分類では,精度保証と再現率保証の二つの基本分類器を用いて3段階分類器を構成する手法を提案する.入力は該当,非該当,及び要判定の3 つに分類され,要判定とされたページはアプリケーションにより要求されるコレクション品質を確保するため人手判定を行うことになる.各基本分類器はさらに周辺ページ分類器(SC)とエントリページ分類器(EC)から構成される.SC では部品ページらしい周辺ページを選択し,EC でエントリページと周辺ページの情報を用いてエントリページを分類する.実験結果より,SC の導入による基本分類器の大幅な性能向上が確認された.また,要判定ページ数の減少度の評価により,提案手法の有効性が確認された.
- 国立情報学研究所の論文
著者
-
大山 敬三
学術情報センター
-
大山 敬三
国立情報学研究所
-
大山 敬三
National Institute Of Informatics The Graduate School For Advanced Studies(sokendai)
-
Yuxin Wang
Information Technology Center University Of Tokyo
-
Keizo Oyama
National Institute of Informatics
-
大山 敬三
総合研究大学院大学
-
大山 敬三
国立情報学研究所 コンテンツ科学研究系
-
OYAMA Keizo
School of Multidisciplinary Sciences, The Graduate University for Advanced Studies (SOKENDAI)
関連論文
- オンラインジャーナル編集・出版システムの開発
- 語の出現位置の視覚的記憶に基づく既読文書の問合せに於ける索引構造の考察
- オンラインジャーナル出版システム
- 入力要素を保存する集約に基づくビューへの問合せ最適化手法
- 産学連携に関するWeb情報の分析 : 大学サイトの事例研究(第17回(2009年度)年次大会(研究報告会&総会))
- 論文情報ナビゲータの構築(セッション5 : 文書データベース)
- 論文情報ナビゲータの構築(セッション5 : 文書データベース)
- 大規模学術情報データベースに適した情報検索システムの開発
- 情報検索サービスNACSIS-IRの新たな展開 (情報検索の新潮流)
- 学術情報環境の変化に対応する学術出版の道しるべ SIST 07/08の改訂による学術雑誌・学術論文の新たな作成基準
- 総合目録オンラインDBと情報検索システムの連携方式 (学術情報分野)
- 学術情報センターにおけるオンラインDBとIRシステムの連携 : 目録系データベースの構成
- インターネットに適応した全文データベース検索システムの拡張 : 文書画像データへのアクセス:鹿児島大学教養部紀要を例として
- オンラインジャーナル出版システム
- 文献の論理構造を考慮した全文検索システム
- 「情報処理学会論文誌:データベース」の編集にあたって
- 「情報処理学会論文誌:データベース」の編集にあたって
- 「情報処理学会論文誌 : データベース」の編集にあたって
- 「情報処理学会論文誌 : データベース」の編集にあたって
- 「情報処理学会論文誌 : データベース」の編集にあたって
- 「情報処理学会論文誌 : データベース」の編集にあたって
- 「情報処理学会論文誌 : データベース」の編集にあたって
- 「情報処理学会論文誌:データベース」の編集にあたって
- Web Page Classification Based on Surrounding Page Model Representing Connection Type and Directory Hierarchy
- Combining Page Group Structure and Content for Roughly Filtering Researchers' Homepages with High Recall (特集:情報融合)
- Framework for Building a High-Quality Web Page Collection Considering Page Group Structure
- Framework for Building a High-Quality Web Page Collection Considering Page Group Structure
- 大規模データベースを利用したリンケージシステムの提案と実装
- 「情報処理学会論文誌 : データベース」の編集にあたって
- NACSIS-IRの検索機能の高度化
- 周辺ページを活用したウェブページコレクションの効率的な構築
- Web データを対象としたナビゲーション指向検索用テストコレクション─ 設計と特性
- NTCIR-3 WEB : Web 検索のための評価ワークショップ(電子文書処理)
- Web検索のための評価ワークショップに適したシステム評価手法
- Web検索チャレンジの課題 : NTCIRワークショップ3の新タスク
- レコード同定問題に関する研究の課題と現状(データ工学論文)
- SAIKAM : インターネット上での協調的な対訳辞書構築環境の実現
- インターネット上の協調対訳辞書構築プロジェクト"SAIKAM"
- インターネット上の協調対訳辞書構築プロジェクト "SAIKAM"
- 複合的メタデータによる文化情報資源へのアクセス可能性の提示(セッション3,学生チャレンジ特集)
- 複合的メタデータによる文化情報資源へのアクセス可能性の提示(テーマ:学生チャレンジ特集)
- 編集にあたって
- 特集「情報融合」に向けて
- 編集にあたって
- 編集にあたって
- 編集にあたって
- 編集にあたって
- 特集「情報融合」に向けて
- 編集にあたって
- 複数書誌データベース統合における重複エントリーの高速検出法(セッション5 : 文書データベース)
- Evaluation Methods for Web Retrieval Tasks Considering Hyperlink Structure(Special Issue on Text Processing for Information Access)
- 編集にあたって(「情報処理学会論文誌 : データベース(電子情報通信学会データ工学研究専門委員会共同編集)」)
- 電子情報通信学会データ工学研究専門委員会による「情報処理学会論文誌 : データベース」への共同編集参加開始について(「情報処理学会論文誌 : データベース(電子情報通信学会データ工学研究専門委員会共同編集)」)
- 編集にあたって
- 電子情報通信学会データ工学研究専門委員会による「情報処理学会論文誌:データベース」への共同編集参加開始について
- 複数書誌データベース統合における重複エントリーの高速検出法(セッション5 : 文書データベース)
- 文書画像データからの書誌情報の抽出とマッチング
- 検索クエリにおける修飾構造の調査(文型と意味)
- NTCIR-1 : 情報検索システム評価用テストコレクション構築の方針と実際
- 学術文献画像の書誌情報の近似マッチング法
- 異種データベース間でのレコード照合に関する研究動向
- 学会誌電子化の現状と将来
- TSS接続による仮想画面転送(VTSS)方式
- 第57回日本図書館情報学会研究大会シンポジウム記録 : 「情報検索サービスの将来像:情報提供機関のこれからの役割と課題」
- 検索クエリを用いた情報の下位範疇化(「Webインテリジェンス」及び一般)
- B13 NLMDTDからJATSへ : NLM DTDからJATSへ(セッションB1情報システム・流通1,一般発表概要,第8回情報プロフェッショナルシンポジウム)
- Combining Page Group Structure and Content for Roughly Filtering Researchers Homepages with High Recall
- Combining Page Group Structure and Content for Roughly Filtering Researchers Homepages with High Recall
- 畳語の頻度分布調査(大規模言語資源による言語知識獲得)
- NLM DTDからJATSへ 日本語学術論文のXML編集
- 短文投稿型WebサービスからのQ&A型知識抽出に向けて (思考と言語)
- 「情報検索の技術とテストコレクション」の刊行にあたって(情報の検索とテストコレクション)
- 大規模テストコレクション構築のためのプーリングについて : NTCIR-1の予備テストの分析
- ウェブページのツイート行動への関心反映度に関するブラウズ行動のコンテキストに注目した分析
- ウェブページのツイート行動への関心反映度に関するブラウズ行動のコンテキストに注目した分析
- 畳語の頻度分布調査
- Web視聴記録等を用いた利用者行動因子の抽出(「Webインテリジェンス」及び一般)
- Efficient Top-k Document Retrieval for Long Queries Using Term-Document Binary Matrix — Pursuit of Enhanced Informational Search on the Web —
- ミニブログ中の対話メッセージを対象としたQ&A型知識抽出
- Context Oriented Analysis of Interest Reflection of Tweeted Webpages based on Browsing Behavior (データ工学)
- 第21回年次大会予稿 ミニブログ中の対話メッセージを対象としたQ&A型知識抽出 (特集 第21回(2013年度)年次大会(研究報告会&総会))
- 短文投稿型WebサービスからのQ&A型知識抽出に向けて(言語と学習・場の供創・意味の創発)
- Web Page Classification Based on Surrounding Page Model Representing Connection Type and Directory Hierarchy
- Web Page Classification Based on Surrounding Page Model Representing Connection Type and Directory Hierarchy
- ウェブページのツイート行動への関心反映度に関するブラウズ行動のコンテキストに注目した分析(twitter・ソーシャルネットワーク,ビッグデータを対象とした管理・情報検索・知識獲得及び一般)