HTMLからのテキストの自動切り出しアルゴリズムと実装
スポンサーリンク
概要
- 論文の詳細を見る
World Wide Webで収集したHTMLテキストから部分的にデータを取り出すプログラムをHTML Wrapperと呼ぶ.本研究ではHTML Wrapperのための新しいデータモデルを提案し,与えられたHTMLから所望のテキストデータを抽出するためのHTML Wrapperを自動生成する機械学習アルゴリズムを構築する.さらにこのアルゴリズムをJavaによって実装し,このアルゴリズムの有効性を検証する.
- 一般社団法人情報処理学会の論文
- 2001-03-15
著者
-
有村 博紀
北海道大学大学院情報科学研究科
-
有川 節夫
九州大学大学院システム情報科学研究院
-
有村 博紀
九州大学大学院システム情報科学研究科
-
坂本 比呂志
九州大学大学院システム情報科学研究科
-
坂本 比呂志
九州工業大学大学院情報工学研究院
-
有川 節夫
九州大学副学長、附属図書館長、大学院システム情報科学研究院教授
-
有川 節夫
九州大学大学史料室
-
村上 義継
九州大学大学院システム情報科学府情報理学専攻
-
坂本 比呂志
九州大学大学院システム情報科学研究院
-
坂本 比呂志
九州大学大学院 システム情報科学研究院情報理学部門
-
村上 義継
九州大学大学院システム情報科学府情報理学専攻:(現)日立製作所
関連論文
- 木の最適ラベリング問題とその進化系統樹への応用
- 接尾辞木を用いた圧縮尺度計算による効率よいスパムポスト検出手法(ポスターセッション,iDBフォーラム2008(招待講演・ポスター英語ディスカッション))
- 発見科学の構想と展開(発見科学)
- 極小出現を用いた頻出多部エピソードの効率のよい発見アルゴリズム (特集 「知見の創出を目指した情報技術」および一般)
- 効率良い正規表現照合のための並列ビット分配にもとづいたハードウェア指向アルゴリズム (コンピュータシステム)
- 効率良い正規表現照合のための並列ビット分配にもとづいたハードウェア指向アルゴリズム (VLSI設計技術)
- 数値データからの意外な回帰結合ルールの発見
- XQUBE:具体例と演示からのXQuery問合せ構築のための視覚言語(セッション6c:問合せ処理・インデクシング)
- 帰納的実数値関数の帰納推論における論駁性と信頼性(アルゴリズム一般)
- 帰納的実数値関数の帰納推論における論駁性と信頼性