事例に基づくHTML文書からXML文書への半自動変換 : シリーズ型HTML文書における類似性の利用
スポンサーリンク
概要
- 論文の詳細を見る
In order to utilize a large quantity of information in Internet, machine processing of HTML documents has been becoming tremendously important. HTML, however, is designed mainly for reading with browsers, thus not suitable for machine processing. XML was proposed as a solution for this problem. Unfortunately, full automatic transformation from HTML to XML is extremely difficult, because it absolutely demands to understand the meaning of HTML documents. On the other hand, there are many series of HTML pages in actual Web sites. Each page of a series usually has a quite similar structure with each other. Therefore a case-based transformation must be a promising method in practice. In this paper, we give a case-based transformation method from HTML documents to XML ones. Given a series of HTML documents and a sample transformation from a selected HTML document into XML one, we first analyze both of the semantic and syntactic information appearing in the sample pair. Next the remaining HTML pages of the series are automatically transformed into XML documents by using the information previously extracted from the sample. We adopt a vector model of term weighted frequency for approximating the meaning of HTML documents, and also use both headlines and a parse tree as syntactical information. Throughout experimental evaluation, we show this case-based method achieved a highly accurate transformation, i.e., 80% of actual 80 pages can be transformed in a correct way.
- 2001-11-01
著者
-
岩沼 宏治
山梨大学大学院医学工学総合研究部
-
岩沼 宏治
山梨大学工学部
-
永井 宏和
山梨大学工学部コンピュータ・メディア工学科
-
梅原 雅之
山梨大学大学院工学研究科電子情報工学専攻
-
永井 宏和
東芝ITコントロールシステム株式会社
関連論文
- SMT:個別理論を取り扱うSAT技術(最近のSAT技術の発展)
- SMT : 個別理論を取り扱うSAT技術
- WEB検索高度化のためのアンサンブル学習に基づく訓練事例の精錬 (人工知能と知識処理)
- 情報利得基準に基づく系列データマイニングによるイベント系列コーパス作成実験 (特集 「知見の創出を目指した情報技術」および一般)
- マルチモーダルユーザインターフェースを備えた高次コミュニケーション空間の構築に関する研究開発通信放送機構委託研究(1997-2001)
- 分散並列型SATソルバにおける探索空間の分割手法の提案
- 検索隠し味の半自動生成を目的とした訓練データの精製(「自動推論: 帰納, 演繹, モデル検査/生成, 学習, 発見, 仮説推論, 論理プログラミング, プランニングetc.」及び一般)
- 系列パターンマイニングにおけるアイテム集合間の関連強度による頻出部分系列の絞込み(「自動推論: 帰納, 演繹, モデル検査/生成, 学習, 発見, 仮説推論, 論理プログラミング, プランニングetc.」及び一般)
- SOLにおけるタブ口証明反転法とその応用(「自動推論:帰納,演繹,モデル検査/生成,学習,発見,仮説推論、論理プログラム,プランニングetc.」及び一般)
- 補題再利用によるSATプランニングの高速化(「自動推論:帰納,演繹,モデル検査/生成,学習,発見,仮説推論,論理プログラム,プランニングetc.」及び一般)(自動推論)
- 投機的計算によるSATプランニングの効率改善に関する研究(自動推論 : 演繹, 帰納, モデル検査/生成, 仮説推論アブダクション, 論理プログラム, プランニング, 時相論理, etc.)
- 効率的なSATプランニングとSATスケジューリングのための補題再利用(「自動化:推論,発見,学習,データマイニング」及び一般)
- WEB検索高度化のためのアンサンブル学習に基づく訓練事例の精錬(「Webインテリジェンス」及び一般)
- Webアクセスログに対する系列データマイニング : ページ滞在時間系列の解析(「さまざまな分野の形式的検証最前線」及びAI一般)
- 因果関係抽出を目的としたコンフィデンスに基づく高速系列データマイニング (「生命情報からの知識発見」及び一般)
- 極大系列抽出を目的とする系列包含検査の高速化アルゴリズム(「さまざまな分野の形式的検証最前線」及びAI一般)
- 山梨大学学内情報基盤(YINS)の概要 (第10回学術情報処理研究集会)
- 超高速ATM LANの構築法と次世代ユーザーインタフェースに関する研究
- リテラルブロック距離に基づく良い学習節の評価と獲得によるSATソルバの性能改善 (特集 「AIの基本問題SATと応用技術」および一般)
- Non-monotone dualization via monotone dualization (特集 「AIの基本問題SATと応用技術」および一般)
- LF-012 単一の長大なデータ系列上の系列パターンの出現尺度とその逆単調性(F. 人工知能)
- 一般講演 単一の長大なテキストデータ系列からの頻出パターンの発見 (ことば工学研究会(第17回)テーマ:物語とコミュニケーション:その性質と生成)
- Semantic Model Elimination : Toward Efficient Equality Proving : Extended Abstract
- マルチ移動エージェントシステムにおける記憶情報のピアツーピア通信に基づく大域的最適化
- LL_005 専門検索エンジンの高速半自動生成法(L分野:ネットワークコンピューティング)
- 専門検索エンジンの半自動生成を目的とした類似度に基づくWEB学習データの精製(一般,コミュニケーションとAI及び一般)
- L-083 精錬手法に基づく検索隠し味型専門検索エンジンの半自動構築(L分野:ネットワークコンピューティング)
- F-043 精度保証付きオンライン型高速近似系列マイニング(人工知能・ゲーム,一般論文)
- 時間的差分データの監視を目的とした携帯端末画面への表示システムに関する研究
- 時間的差分データの監視を目的とした携帯端末画面への表示システムに関する研究
- HTML文書の時間的差分の自動検出に関する研究 (テーマ:一般演題及び「webとtext」)
- エージェント間通信におけるアブダクションによる投機的計算(マルチエージェント)
- 特集「定理証明, 推論関係の新技術」にあたって
- F-045 マルチコア環境に向けた高速並列SATソルバの開発(F分野:人工知能・ゲーム)
- マルチコア環境に向け並列SATソルバの開発(「自動化:推論,発見,学習,データマイニング」及び一般)
- 上昇型定理証明器Hyper Tablauxへの関連性試験の導入
- 上昇型定理証明器 Hyper Tablaux への関連性試験の導入
- 非領域限定式を扱う双方向定理証明器
- トップダウン型分散定理証明システムにおける協調の形態に関する研究
- 一階理論に対する単一名公理の計算法
- HTMLからXMLへの事例ベース変換における複合テキストブロックの取扱い : アライメント等の適用
- シリーズ型HTML文書群の事例ベース変換におけるオフライン処理による検索語の絞り込み
- シリーズ型HTML文書群の事例ベース変換におけるオフライン処理による検索語の絞り込み
- 事例に基づくHTML文書からXML文書への半自動変換 : シリーズ型HTML文書における類似性の利用
- タブローに基づく論理的帰結発見手続きSOL
- トップダウン型定理証明における補題の有用性 : その実装と評価
- F-047 イベント時系列マイニングを目的とする新聞記事からの時系列情報に基づく単語抽出(人工知能・ゲーム,一般論文)
- イベント系列マイニングを目的とする新聞記事からの時系列情報に基づく単語抽出 (「生命情報からの知識発見」及び一般)
- トップダウン型定理証明における補題の有用性 : その実装と評価
- 一階論理コンパイラを用いる分散定理証明システムの実装と性能評価
- 一階論理コンパイラを用いる分散定理証明システムの実装と性能評価
- 階層パターンの抽出を目指した系列データマイニング(学生セッション,大学のAI・企業のAI)
- 階層パターンの抽出を目指した系列データマイニング(学生セッション,大学のAI・企業のAI)
- 結論発見手続きSOLタブロー法のための多重探索戦略の提案 (特集 「ベイジアン・ネットワーク」および一般)
- 非再帰的な述語サーカムスクリプションの一階論理式への等価変換
- 並列サーカムスクリプションのパラメーター消去手法
- 高階ユニフィケーションアルゴリズムの複雑さについて (関数型プログラミングと計算の基礎)
- F-021 情報量と頻度に基づく系列データマイニングにおける非同期パターンの抽出と効率化(人工知能・ゲーム,一般論文)
- Nelson-Oppen結合手続きの逆伴意法に基づく改良
- エージェントのルール学習におけるGAとGPの特性比較と融合化による性能向上
- エージェントの行動学習問題におけるGAとGPの特性解析とハイブリッド化による性能向上
- 構造類似性を考慮した HTML 文書から XML 文書への変換について
- 構造類似性を考慮した HTML 文書から XML 文書への変換について
- HTML文書からXML文書への変換について
- 専門語彙テンプレートの自動生成とWebページの自動統合(WWW,テキスト情報の要約と掲示に関わる自然言語処理シンポジウム及び一般)
- 事例に基づくシリーズ型HTML文書の意味論理構造の自動認識 : HTMLからXMLへの自動変換を目指して
- シリーズ型HTML文書の事例に基づく文書論理構造の自動認識と抽出 (テーマ:一般演題及び「webとtext」)
- 事例に基づく HTML 文書から XML 文書への変換
- 事例の意味・構造情報の双方を利用したHTMLからXMLへの変換
- 事例の意味・構造情報の双方を利用したHTMLからXMLへの変換
- PTTP型定理自動証明におけるゴールの準最適な並び
- PTTP型定理証明におけるゴールの準最適な並び
- WEB文書の頻出語情報を利用した解答検索システムの構築(一般,コミュニケーションとAI及び一般)
- 近年の一階論理定理証明プログラムの実際
- 共通記号を持つ背景理論の決定手続きの結合法とその効率化について
- LF_006 緩和法に基づく系列データからの頻出部分系列の高速マイニング(F分野:人工知能・ゲーム)
- 背景記事集合の類似度に基づく新聞記事のクラスタリング(一般,テキスト情報の要約と掲示に関わる自然言語処理シンポジウム及び一般)
- 緩和法に基づく時系列データ中からの頻出部分系列の高速マイニング (テーマ:「データマイニングと統計数理」および一般)
- 時系列データ中の頻出部分系列を高速抽出するオンライン近似計算法 (テーマ:「データマイニングと統計数理」および一般)
- 論理プログラムによるゲームのプロトタイプ開発支援ツールGALOPの開発
- LF-002 大規模データ系列中に頻出する部分系列のオンライン抽出アルゴリズム(F分野:人工知能・ゲーム)
- リンク元コンテキストを用いたWEB文書の最重要箇所の同定法
- 2 リテラル節補題の利用による定理証明の高速化
- 2 リテラル節補題の利用による定理証明の高速化
- 補題の一般化による定理証明の高速化
- マルチエージェントシステム分散協調問題における時間遅れと知識量の関係
- 利己的なマルチエージェント群の分散協調における時間遅れの影響
- 遺伝的プログラミングを用いた命題MEタブロー法による定理自動証明
- GPを用いたMEタブロー法による定理自動証明 : 予備的考察
- ハイパーリンク先ページでの重要箇所の同定法:リンク元コンテキストとページ構造の考慮 (特集 「医療及び化学情報マイニング」および一般)
- 老若男女だれでも簡単に使えるHTML文書ラッパ自動合成システム(「21世紀の知識情報科学に向けて」,及び一般)
- リンク元コンテキストを考慮するハイパーリンク重要箇所同定法
- 近年の定理自動証明技術 : システムコンペCASCとその周辺(「定理証明, 推論関係の新技術」)
- 多値論理を用いた生体ネットワークシステムのモデル検査(2012年5月28日版)
- テキスト系列マイニングにおける有用性尺度について(系列パターンマイニングの最近の動向)
- 充足可能性判定器に基づく命題論理の結論発見器の提案 (「マルチエージェントの基礎理論とその応用」および一般)
- 系列パターン抽出における各種の評価尺度の関係性 (「マルチエージェントの基礎理論とその応用」および一般)
- 多値論理を用いた生体ネットワークシステムのモデル検査(2012年5月28日版) (ニューロコンピューティング)
- 多値論理を用いた生体ネットワークシステムのモデル検査 : 2012年5月28日版(一般,機械学習によるバイオデータマインニング,一般)