Webページ分割のための決定木学習を用いたタイトルブロック抽出(データ工学,Web情報システム)
スポンサーリンク
概要
- 論文の詳細を見る
本研究で提案するWebページ分割手法では,Webページを細分化ブロックという単位まで分割した後に,Webコンテンツの見出しとなるようなブロック(タイトルブロック)に着目して細分化ブロックの結合を行うことにより,Webページを意味的にまとまりのある単位へと分割する.既存のWebページ分割手法の多くが,面積や子ノード数など,コンテンツ量に依存する情報を用いて結合を行っていた.その結果,同一Webサイト内の同じレイアウトのWebページから異なる分割結果が得られるという問題が存在した.提案手法ではコンテンツ量に非依存な結合を行うために,タイトルブロックとそれに続くタイトルブロック以外のブロック(一般ブロック)を結合していく.そのためには,計算機によるタイトルブロックの抽出が課題となる.計算機によるタイトルブロックの自動抽出を行うために,機械学習によって分類器を生成した.J4.8アルゴリズムによる決定木学習によって生成した分類器により,F値77.8%,89.3%でタイトルブロックと一般ブロックの抽出に成功した.得られたタイトルブロックを用いて細分化ブロックの結合を行った結果,ニュースサイトのニュース記事部分に着目した場合,96.1%の精度でコンテンツ量に依存しない同一の分割結果が得られることを確認した.
- 2012-04-01
著者
-
大囿 忠親
名古屋工業大学大学井工学先攻科情報工学専攻
-
新谷 虎松
名古屋工業大学大学院工学研究科情報工学専攻
-
佐野 博之
名古屋工業大学大学院工学研究科情報工学専攻
-
新谷 虎松
名古屋工業大学
-
新谷 虎松
名古屋工業大学大学院工学研究科
-
白松 俊
名古屋工業大学大学院工学研究科情報工学専攻
-
大囿 忠親
名古屋工業大学大学院工学研究科情報工学専攻
-
白松 俊
京都大学大学院情報学研究科:(現)日本学術振興会
-
佐野 博之
名古屋工業大学大学院 工学研究科 情報工学専攻
-
白松 俊
名古屋工業大学大学院 工学研究科 情報工学専攻
-
白松 俊
名古屋工業大学
-
大囿 忠親
名古屋工業大学
関連論文
- 2P-9 携帯電話のセッション推定に基づくアクセスログの補完について(Webマイニング,学生セッション,データベースとメディア)
- D-042 可変クラスタリングウィンドウによるトピック追跡システムの試作(D分野:データベース)
- 2N-2 マッシュアップ・プロファイルを考慮したWeb APIリポジトリの試作(Web応用,学生セッション,データベースとメディア)
- 知的Web技術に基づく携帯電話向け情報編纂システムとその応用(応用システム,情報社会のデザイン;デジタルドキュメントと知的コミュニケーション)
- D-10-9 Skype APIを利用したサーバ監視システムの実装(D-10.ディペンダブルコンピューティング,一般講演)
- 1ZJ-8 QRコードの多色化による2次元コードの大容量化について(行動・資料の分析,提案,学生セッション,コンピュータと人間社会)
- 1N-5 Web行動リプレイシステムに基づくWebアプリケーション動作検証システムの試作(Webサービス提供,学生セッション,データベースとメディア)
- F-016 カードモデルに基づく情報編纂システムを利用したレシピ検索システムの試作(人工知能・ゲーム,一般論文)
- F-015 携帯電話向け情報編纂システムのためのコンテンツ作成システムの試作(人工知能・ゲーム,一般論文)
- F-014 携帯電話向け情報編纂システムのためのパソコン用書類変換機構の試作(人工知能・ゲーム,一般論文)
- F-013 携帯電話における情報閲覧支援のための情報編纂システムについて(人工知能・ゲーム,一般論文)
- 1T-2 サーバ主導型Push配信を利用した同期分散型Webブラウジングシステムの試作(Webデザイン,学生セッション,データベースとメディア)
- F_012 定性シミュレーションに基づく栄養士養成支援システム(F分野:人工知能・ゲーム)
- 3R-9 階層的Webページ分割を用いたサブコンテンツ除去手法について(Web応用,学生セッション,データベースとメディア,情報処理学会創立50周年記念)
- ユーザの観点に基づくイベント系列化を用いたWebニュース記事閲覧支援システムの実装
- 6U-4 無線センサデバイスを利用したプレゼンテーション実時間評価支援システムの実現(ネットワーク応用,学生セッション,ネットワーク)
- F-018 プログラマブルな小型センサデバイスを用いた研究室位置情報管理システムの試作(人工知能・ゲーム,一般論文)
- F-017 携帯電話とプログラマブルな小型センサデバイスを用いた簡易位置情報検出システムの試作(人工知能・ゲーム,一般論文)
- 1Z-2 論文リポジトリに基づく研究支援のための対話的ユーザモデル構築手法の提案(人工知能・応用システム,学生セッション,人工知能と認知科学,情報処理学会創立50周年記念)
- 5R-1 操作履歴とDOM構造に基づくWeb行動分節化システム(Webシステム,学生セッション,データベースとメディア,情報処理学会創立50周年記念)
- L-065 WisdomAdBalloon : Push型情報配信技術に基づく動的ページ構成システム(L分野:ネットワークコンピューティング)
- 3D-4 公的討議の書き起こし議事録を用いた懸案事項共有化フレームワーク(自然言語処理(1),一般セッション,人工知能と認知科学,情報処理学会創立50周年記念)
- 1Z-1 メール履歴を利用した学習に基づく誤送信メール推定システムの試作(人工知能・応用システム,学生セッション,人工知能と認知科学,情報処理学会創立50周年記念)
- M-088 複数ポインティングを利用したプレゼンテーション支援システムの実現(ユビキタス・モバイルコンピューティング,一般論文)
- 逐次的リズム音程生成モデルに基づく自動作曲システム
- G-008 反復度に基づく特徴旋律抽出手法の提案(G分野:音声・音楽)
- 1Z-4 スマートフォンを用いた分散共有ワークスペースに基づくプレゼンテーション資料管理システム(人工知能・応用システム,学生セッション,人工知能と認知科学,情報処理学会創立50周年記念)
- 6ZL-5 Webコンテンツ同期配信技術を用いたニュース記事メニュー配信システムの試作(情報システムの事例,学生セッション,コンピュータと人間社会)
- 5ZC-8 携帯電話上でのメタデータを含むニュース記事入力環境について(モバイル,学生セッション,インターフェース)
- 6X-3 記事テンプレートを利用したニュース記事作成支援システムの試作(音声・言語処理,学生セッション,人工知能と認知科学)
- 3V-6 モバイルエージェント環境MiLogに基づくオークションシミュレータにおける参加者戦略の記述について(マルチエージェント(1),学生セッション,人工知能と認知科学)
- 1T-1 閲覧者の情報に基づくWebコンテンツのプッシュ型配信について(Webデザイン,学生セッション,データベースとメディア)
- 5S-6 ニュース記事閲覧のための複数ウィンドウ方式を用いた特定トピック追跡システムの試作(知識発見・検索,学生セッション,データベースとメディア)
- B-033 Webを用いた記事配信のための同期型メタ情報配信システム(B分野:ソフトウェア)
- 次世代記事編集システムにおけるNewsMLを用いたメタデータ配信について
- F_036 NewsMLエディタのためのSubjectCode階層に基づく記事分類システムの試作(F分野:人工知能・ゲーム)
- Web エージェントを用いた Web コンテンツへの付箋アノテーションの実現
- 4S-1 ニュース記事のための対話的トピック分析システムとその高速化手法について(対話・質問応答,学生セッション,人工知能と認知科学)
- 4P-3 マルチブラウザのためのWebコンテンツの自動変換環境とその応用(情報可視化,学生セッション,データベースとメディア)
- 1C-1 ブロック解析に基づくWebページの情報編纂システム(コンテンツ作成支援,一般セッション,データベースとメディア)
- モバイル端末のためのWebコンテンツ閲覧支援環境とその応用(応用システム,情報社会のデザイン;デジタルドキュメントと知的コミュニケーション)
- 知的Web技術に基づく携帯電話向け情報編纂システムとその応用(応用システム,情報社会のデザイン;デジタルドキュメントと知的コミュニケーション)
- モバイル端末のためのWebコンテンツ閲覧支援環境とその応用(応用システム,情報社会のデザイン;デジタルドキュメントと知的コミュニケーション)
- SVMに基づくテンプレートを考慮したWebページの分割手法について(「Webインテリジェンス」及び一般)
- 4Y-3 携帯電話を利用した緊急情報の共有および配信システムの試作(携帯電話向けアプリケーション,学生セッション,ネットワーク)
- 1T-3 携帯電話におけるWebコンテンツ閲覧のためのコンテンツ抽出アルゴリズムについて(Webデザイン,学生セッション,データベースとメディア)
- 5R-6 オンラインWebページに基づく付箋アノテーションシステムとその応用(Web応用,学生セッション,データベースとメディア)
- F-009 DOM木解析に基づく携帯電話用Webページへの変換手法について(F分野:人工知能・ゲーム)
- エージェントに基づく自律的なコンテンツレイアウト決定手法について
- F_038 コンテンツエージェントモデルに基づくWebページの自動編成システムの試作(F分野:人工知能・ゲーム)
- 3C-4 断片化Web情報の構造化に基づくコンテンツ閲覧支援環境について(Web検索支援,一般セッション,データベースとメディア,情報処理学会創立50周年記念)
- プロダクションシステムKORE/IEの分散化とその応用について : 選択肢決定支援システムGCDSSの実現
- 事例べース推論における事例管理機構の試作について : 選択肢決定支援機構GCDSSへの応用
- 選択肢決定支援システムGCDSSにおけるユーザーインターフェースの実装について : 分散知識システムのインターフェース
- 1Q-8 スマートフォンのためのカードモデルを利用したコンテンツ開発環境の実現(ユーザ支援,学生セッション,データベースとメディア)
- 3N-3 オフラインWeb技術に基づく付箋アノテーションシステム(メタデータ活用,学生セッション,データベースとメディア)
- 3N-2 Webページヘの付箋アノテーションを用いたニュース記事閲覧支援システム(メタデータ活用,学生セッション,データベースとメディア)
- F-010 DOMツリー解析に基づくWebページへの付箋貼付けシステム(F分野:人工知能・ゲーム)
- P2Pに基づく双方向HTMLリンク分散管理システム
- D-15-26 定性シミュレーションによる環境教育支援システムの構築(D-15.教育工学,一般講演)
- D-8-9 定性推論に基づく災害予測システム(D-8.人工知能と知識処理,一般講演)
- D-8-11 大量のレシピからの料理に関する類似性評価知識発見手法について
- 料理における類似性評価のための知識の発見手法について
- 1N-5 階層的事例ベース推論を用いた料理デザインエージェントについて
- ユーザー意見を反映した事例による献立作成エージェントについて
- 会議支援システムにおけるプッシュ配信を用いた非公開資料の保護について(「コミュニティ上での知識の共有・再利用」及び一般)
- スクリーンセーバーを利用したWebコンテンツ配信システムの試作(「コミュニティ上での知識の共有・再利用」及び一般)
- 役割に基づくWebページの分割手法とその応用について(「コミュニティ上での知識の共有・再利用」及び一般)
- ユーザの行動履歴を利用したスライド再利用支援システムの試作(「コミュニティ上での知識の共有・再利用」及び一般)
- F-022 人間関係を利用した誤送信メール防止システムの試作(F分野:人工知能・ゲーム,一般論文)
- E-025 合意形成を導くファシリテーション機能拡張のための議論コーパス作成支援システム(E分野:自然言語・音声・音楽,一般論文)
- 1Z-6 スライドシーンに基づくスライドリポジトリ構築手法の提案(人工知能・応用システム,学生セッション,人工知能と認知科学,情報処理学会創立50周年記念)
- 1Z-5 スライドシーンに基づくスライド作成支援システムの実現(人工知能・応用システム,学生セッション,人工知能と認知科学,情報処理学会創立50周年記念)
- 1Z-3 実演操作ログを用いたマニュアル作成支援システム(人工知能・応用システム,学生セッション,人工知能と認知科学,情報処理学会創立50周年記念)
- 4V-6 イベントの属性抽出と系列化に基づくニュース記事閲覧支援システム(言語処理支援システム,学生セッション,人工知能と認知科学,情報処理学会創立50周年記念)
- 4V-5 研究初心者のための論文サーベイ支援システムの試作(言語処理支援システム,学生セッション,人工知能と認知科学,情報処理学会創立50周年記念)
- 4V-4 議論支援システムのための対立と質問に着目した適切性ルールの設計(言語処理支援システム,学生セッション,人工知能と認知科学,情報処理学会創立50周年記念)
- 3Q-7 Web閲覧者の視点を考慮した付箋アノテーション間のリンク構造に基づく情報推薦モデルの提案(情報抽出,学生セッション,データベースとメディア,情報処理学会創立50周年記念)
- 4U-1 複数のセンサデバイスを利用した学習に基づく簡易位置推定システムについて(位置推定,学生セッション,ネットワーク)
- F-008 Webエージェントに基づくWebアプリケーション開発環境の試作(F分野:人工知能・ゲーム)
- D-13-4 Gtk Mozilla Embedding Widgetを用いたWebページサムネイル作成サービスの構築(D-13.知能ソフトウェア工学,一般講演)
- B-19-11 携帯電話のためのコンテンツ配信システムにおけるキャッシュを考慮した負荷分散(B-19.ネットワークソフトウェア,一般講演)
- 外部評価機構を導入したマルチエージェント強化学習における過去の事象に基づく報酬配分(人工知能,認知科学)
- G-23 環境のビット列表現による強化学習アルゴリズムの高速化について(人工知能(一般),G.人工知能)
- LG-2 マルチエージェント強化学習における記憶に基づく貢献度判別(G. 人工知能)
- 3S-6 帰納推論に基づくXMLタグ構造分類によるXML検索(XMLと応用,学生セッション,データベースとメディア)
- D-022 制約論理プログラミングに基づくXMLデータベースの試作(D分野:データベース)
- D-4-15 制約論理型言語に基づくXML文書推論システム(D-4.データ工学,一般講演)
- 知識テーブルに基づく大規模知識処理のためのXMLデータベースの試作
- 動的重み付き最大制約充足問題に基づくナーススケジューリングシステム : 暫定制約の導入に基づく解の安定性の実現
- 論理型言語MiLogに基づくインターネットオークション入札支援システムBiddingBotの実装技法(ネットワークサービス)
- G-22 組合せオークションに基づくスケジューリング問題の定式化とその解法について(人工知能(一般),G.人工知能)
- LK-002 Webブラウザを用いたWebページにおける調和配色システムについて(K分野:ヒューマンコミュニケーション&インタラクション)
- 4Y-8 携帯電話環境におけるWebコンテンツ同期システムとその応用(携帯電話向けアプリケーション,学生セッション,ネットワーク)
- 4Y-7 携帯電話の組み込み機能を利用可能なWebアプリケーションの実現とその応用(携帯電話向けアプリケーション,学生セッション,ネットワーク)
- M-036 携帯電話環境におけるコンテンツ同期配信システムの試作(M分野:ユビキタス・モバイルコンピューティング)
- F-009 会話の流れのトレースによるWeb掲示板閲覧支援システム(F分野:人工知能・ゲーム)
- ブラウジングモデルに基づくWWWナビゲーションエージェント
- ハイパーリンクの多機能化を目的としたBAC-Linkシステムの試作
- D-9-28 会議支援システムにおけるポインタによる注目情報の同期表示(D-9.ライフインテリジェンスとオフィス情報システム,一般セッション)