複数のWeb Wrapperによる高精度な情報抽出(セッション4:Web応用)
スポンサーリンク
概要
- 論文の詳細を見る
本稿は大量にあるWebページから有用な情報を抽出するWeb Wrapper(以下ラッパ)を自動的でかつ高精度に生成する方法を提案する.従来のWebラッパの研究では抽出器が単一のラッパで構成される事を前提として一般化していた.しかしながら,単一のラッパでは,抽出器の表現力が乏しく,あるページ内における小さなレイアウトの変化に適応できないため,ラッパの生成に失敗する事があった.本研究ではラッパを複数のラッパで構成するために特殊ラッパと呼ぶラッパを定義し,ラッパを特殊ラッパの集合で表現することで,今まで正確に抽出する事が困難だったページに対しても抽出可能である事を確認した.
- 一般社団法人情報処理学会の論文
- 2007-01-25
著者
-
松井 藤五郎
東京理科大学理工学部経営工学科
-
大和田 勇人
東京理科大学理工学部経営工学科
-
内山 俊郎
日本電信電話株式会社NTTサイバーソリューション研究所
-
片岡 良治
日本電信電話株式会社NTTサイバーソリューション研究所
-
植松 幸生
Nttコミュニケーションズ株式会社先端ipアーキテクチャセンタ
-
内山 俊郎
日本電信電話株式会社サイバーソリューション研究所
-
松井 藤五郎
東京理科大学理工学部
-
植松 幸生
東京理科大学理工学研究科
-
大和田 勇人
東京理科大学
-
内山 俊郎
日本電信電話株式会社 サイバーソリューション研究所
-
片岡 良治
日本電信電話株式会社NTTコミュニケーション科学基礎研究所
関連論文
- 仮想マルチスペクトルカメラ表現を用いたスペクトルに基づく画像生成法 (画像符号化・映像メディア処理レター特集)
- 検索クエリを用いた場所の関連語の取得 (「知能と社会・ネットワーク」および一般)
- カブロボへの招待 : 人工知能を用いた株式取引
- F-027 ベイジアンフィルタとユーザ認証を組み合わせたspamメールフィルタリング(人工知能・ゲーム,一般論文)
- 全単語間共起を考慮した概念ベース生成手法 (パターン認識・メディア理解)
- 全単語間共起を考慮した概念ベース生成手法 (画像工学)
- 1X-5 アクセスモニタとファイルバックアップの統合による自己修復機構の設計(セキュア設計・実装・フォレンジクス,学生セッション,セキュリティ)
- 医療分野に特化した概念ベースによるDPCコーディング (医用画像)
- 仮想マルチスペクトルカメラ表現を用いたスペクトルに基づく画像生成法(画像認識,コンピュータビジョン)
- マルチスペクトル撮影による光源スペクトルの計測(画像認識,コンピュータビジョン)
- 単語概念ベクトルを用いた文書群からの代表語抽出(テーマ,膨大なデータから学ぶもの)
- ウェブ検索を利用したしきい値選択型テキストセグメンテーション(jDBワークショップ)
- 絵文字の語義抽出と役割の曖昧性解消 (「知能と社会・ネットワーク」および一般)
- αダイバージェンスに基づく単語連想と文書分類への適用(テーマ関連セッション3,コンピュータビジョンとパターン認識のための学習理論)
- テキストマイニングによる金融市場の月次動向分析(社会システムと知能)
- 3T-7 情報機器制御のためのWeb-topユーザーインターフェース
- テキストマイニングによる金融市場の月次動向分析(社会システムと知能)
- H-034 マルチドメインを持つ遠縁な相同タンパク質の検出手法(H分野:生体情報科学)
- 特集「ファイナンスにおける人工知能応用」にあたって
- 3W-4 アソシエーションルールを用いた電子メールのマルチラベル分類(学習(2),学生セッション,人工知能と認知科学,情報処理学会創立50周年記念)
- 1S-4 クチコミ掲示板を対象とした製品評価情報の分類(ソーシャルWeb,学生セッション,データベースとメディア,情報処理学会創立50周年記念)
- 階層的定性シミュレーションによる因果ネットワークの生成
- 定性推論を組み込んだ医療診断システム
- 5L-2 バイトコードによるJava servletプログラムの解析(プログラミング支援環境,学生セッション,ソフトウェア科学・工学)
- 4P-8 生物シミュレーション構築のための確率的構文を導入した論理型言語の提案(プログラミング言語,学生セッション,ソフトウェア科学・工学,情報処理学会創立50周年記念)
- 共生進化に基づく帰納論理プログラミングの予測精度の向上
- F-018 造語に特化した固有表現抽出(F分野:人工知能・ゲーム,一般論文)
- F-054 WWWのテキスト情報を利用した関連企業の自動抽出(F分野:人工知能・ゲーム,一般論文)
- 帰納論理プログラミングに基づく順序データからの学習方式
- F-026 Swingによる視覚化を利用した肝細胞癌再発予測支援(F分野:人工知能・ゲーム,一般論文)
- 5ZJ-3 ILPを用いたBCL2ファミリータンパク質の一次構造からのフォールド予測(バイオ情報学,学生セッション,コンピュータと人間社会)
- H_020 モデル植物の購買履歴からの変異体選択支援システム(H分野:生体情報科学)
- H_017 HMMプロファイルの類似性に着目した遠縁の相同体検出手法の提案(H分野:生体情報科学)
- LH_006 Multi-Domain HMMsearch : マルチドメインを持つ遠縁なタンパク質のための相同性検索ツール(H分野:生体情報科学)
- 強化学習を用いた金融市場取引戦略の獲得と分析(ファイナンスにおける人工知能応用)
- 中間報酬環境へのOn-Line Profit Sharing強化学習法の適用 (「機械学習とその応用」および一般発表)
- F_006 強化学習を用いた株式取引シミュレーション(F分野:人工知能・ゲーム)
- 制約指向ロボット言語の設計
- 制約充足機構を用いた作業プランナの設計
- Javaによる金融意思決定支援システム(その2) : 実装と評価
- Javaによる金融意思決定支援システム(その1) : システム設計
- 5P-3 移動エージェントに基づくナビゲーションシステムの設計
- F-004 重みつき類似度を用いたテキスト分類における判別モデルの改善(人工知能・ゲーム,一般論文)
- 5ZJ-1 大きく変異したマルチドメインタンパク質のためのMDHMMERの改良(バイオ情報学,学生セッション,コンピュータと人間社会)
- 5V-9 学習機能を持った製造工程管理システムの構築(ニューラルネット・学習,学生セッション,人工知能と認知科学)
- 5V-8 ILPを用いたダイス製造プロセスネットワークの学習(ニューラルネット・学習,学生セッション,人工知能と認知科学)
- 1V-4 併買関係に基づく金銭的価値による商品ランキング(学習・推論,学生セッション,人工知能と認知科学)
- 3N-1 HMMERのOpenMPによる並列化(ハイパフォーマンスコンピューティング,学生セッション,アーキテクチャ)
- 複数のWeb Wrapperによる高精度な情報抽出(セッション4:Web応用)
- 複数のWeb Wrapperによる高精度な情報抽出(セッション4:Web応用)
- 複数の Web Wrapper による高精度な情報抽出
- 二段階アプローチによるWeblogからの意見文抽出(情報抽出,特集「Web情報処理」及び一般)
- 二段階アプローチによるWeblogからの意見文抽出 (テーマ:「Web情報処理」および一般発表)
- Inverting Resolutionの概念を用いた経済定性モデルの学習
- 経済予測のための定性推論
- テキストマイニングによる月次市場価格の分析(「社会的インタラクションにおける知」及び一般)
- 帰納論理プログラミングを用いたグラフィックデザイン知識の獲得
- 帰納論理プログラミングを用いたグラフィックデザイン知識の獲得
- L-032 ファイルバックアップとアクセスモニタの統合による自己修復機構の設計(ネットワーク・セキュリティ,一般論文)
- F-039 帰納論理プログラミングを用いたWebラッパー自動生成(人工知能・ゲーム,一般論文)
- 3R-6 帰納論理プログラミングを用いたWebラッパー自動生成(学習,学生セッション,人工知能と認知科学)
- 3P-2 書籍情報から得た個人情報のソーシャルネットワークヘの活用(情報管理とシステム,学生セッション,データベースとメディア)
- 4X-4 遠隔教育システムにおける個人適応型システムの設計(学校・教室システム,一般講演,コンピュータと人間社会)
- 人工市場とエージェントの取引戦略
- ILPシステムと属性-値学習システムとの比較検討
- 帰納論理システムを用いたフロアプランの自動生成
- 帰納学習を用いた数値データからの知識獲得
- 帰納学習システムの比較検討と応用可能性
- F-007 編集距離を組み込んだWrapperによるWebからの情報抽出(F分野:人工知能・ゲーム,一般論文)
- 3ZG-3 電子機器制御に関するユーザビリティ向上のためのインターフェース構築(知的活動支援,学生セッション,インタフェース,情報処理学会創立50周年記念)
- 3W-5 誤ラベルデータ検出による半教師有り学習の研究(学習(2),学生セッション,人工知能と認知科学,情報処理学会創立50周年記念)
- 1W-4 帰納論理プログラミングにおける関係データベース技術を用いたアルゴリズムの提案(最適化,学生セッション,人工知能と認知科学,情報処理学会創立50周年記念)
- 3P-8 Sootを用いた解析コードの挿入による電子商取引システムのユーザーログ生成手法(ソフトウェアアーキテクチャ・設計,学生セッション,ソフトウェア科学・工学,情報処理学会創立50周年記念)
- 帰納学習によるしわ画像の分類規則の生成
- 帰納学習を用いた画像分類システムの開発
- 自動配置システムの為の空間配置問題の分類とその解法について
- 空間制約充足問題の定式化とその解法
- 知識ベースを取り入れた制約指向フロアプランニングシステムの設計
- 制約指向フロアプランニングシステムの設計
- 制約論理プログラミングによる衝突回避動作計画
- 制約プログラミングのBundle Price問題への応用
- 把握物体を考慮したロボット動作計画システムの設計
- 空間的制約を用いた障害物回避動作計画
- 空間的制約を考慮した協調ロボット動作計画
- 空間制約を用いた協調ロボット動作計画
- 帰納論理プログラミングと関係データベースの結合
- 帰納論理システムによる発見的学習 : 関係データベースからの帰納的一般化
- 帰納学習を用いた幾何学的制約の獲得
- 帰能学習によるレイアウト設計知識の獲得
- Personalized Mail Agent(その2) : 性能評価
- Personalized Mail Agent(その1) : 設計方針
- 定性的シミュレーションに基づく診断システムの構築法
- KQMLを利用した分散制御方式の検討
- ロボット間協調を容易に実現する並列論理型プログラミング言語の設計
- 実用的な経路計画生成のための時間制約付きヒューリスティック探索
- 2X-1 遠隔学習における演習問題記述のためのスクリプト言語の設計(プログラミング・言語教育,一般講演,コンピュータと人間社会)
- 4X-5 遠隔教育システムにおける効果的な教材検索および表示機能の設計(学校・教室システム,一般講演,コンピュータと人間社会)
- WWW情報の構造視覚化と検索機能の統合(発見科学)
- E-014 不要語除去を用いた商品情報の比較支援システム(検索・質問応答・抽出,E分野:自然言語・音声・音楽)
- E-005 生命医学文献の新たな文献探索システムの開発支援(情報抽出・検索,E分野:自然言語・音声・音楽)