HTML構造における頻出パターンのマイニングによるWWWからの情報抽出(情報抽出・構造分析)(ユビキタス社会における情報流通および一般)
スポンサーリンク
概要
- 論文の詳細を見る
WWWの急激な普及に伴い,大量のHTML文書がWWW上に蓄積されている.蓄積された文書は様々な用途に期待されている一方で,そのほとんどが半構造化データであるHTML文書として製作されているために機械的に扱うことが難しいという問題がある.近年HTML文書における頻出パターンの抽出にもとづいたデータマイニングが注目されているが,その一環として本論文ではHTML文書から効果的に情報を抽出するために解析対象の文書を起点に同一Webサイト内の他の文書を収集し,解析の参考とする手法を提案する.同一Webサイト内における各HTML文書のタグに関するtf/idf値から文書間の類似度を算出し,類似する文書間のパターン解析をすることで情報抽出の精度を高めることを目指し,提案した手法の評価を行った.
- 一般社団法人情報処理学会の論文
- 2004-03-26
著者
関連論文
- 電子メールを基にした情報共有システムに関する考察(セッション4,学生チャレンジ特集)
- 電子メールを基にした情報共有システムに関する考察(テーマ:学生チャレンジ特集)
- 知人同士のインフォーマルコミュニケーションを支援するプレゼンスサービスシステムの検討(コミュニケーション)
- B-7-39 アドホックネットワーク上での電子投票向けデータ形式の提案(B-7. 情報ネットワーク,一般セッション)
- インターネットを用いた複数経路データ伝送方式の性能評価
- 無線LANにおけるシャドーイングを考慮した分散型アクセス制御方式
- モバイルエージェントによる社会心理学に基づいた交渉支援法について
- 再ルーティング型多段接続網による大容量パケットスイッチにおけるLSIへの実装に適した回路構成方式の検討
- B-6-68 大容量再ルーティング型多段接続パケットスイッチのための高能率クロスバスイッチ方式の検討
- B-7-216 複数経路コネクション指向プロトコルM/TCPの提案
- 可変速度TDM交換方式を用いた最低帯域保証機能をもつ動画像トラヒック制御方式
- B-7-12 データトラヒックモデリングにおけるモデル選択に関する考察
- B-6-42 共有バッファ型単位スイッチを導入したRing Shuffleスイッチの性能評価
- B-6-41 閉ループを持つ再ルーティング多段接続網におけるルーティング処理の効率化に関する検討
- f-ARIMAモデルのパラメータ数に関する考察
- 10-110 東京大学における「教育の情報化」 : 東京大学オープンコースウェア(UTOCW)の運営と活用(オーガナイズドセッション「オープンコースウエアとその活用」-II,口頭発表論文)
- 再ルーティング型多段接続網による大容量パケットスイッチにおけるLSIへの実装に適した回路構成方式の検討
- 再ルーティング型多段接続網による大容量パケットスイッチにおけるLSIへの実装に適した回路構成方式の検討
- 多地点テレビ会議における通信品質のばらつきが主観品質に及ぼす影響
- 複数経路を用いてIPパケット転送するマルチルートゲートウェイの実装と評価
- 5U-2 複数経路を用いてIPパケット転送するマルチルートゲートウェイの実装と評価
- 5U-1 TCP/IPパケットを複数経路に分配して通信する方式の性能評価
- B-11-2 複数のTCP通信にDRRを適用する場合の通信品質の評価
- B-11-1 最低保証帯域を設定したTCP通信品質の評価
- B-7-51 複数経路を用いたTCP通信に関する一検討
- B-11-14 電子商取引に帯域制御を適用する場合の通信品質の検討
- B-7-78 インターネットを用いた複数経路データ転送方式に関する一検討
- IPパケット損失がMPEG1音声・画像品質に及ぼす影響の評価
- IPパケット損失がMPEG1音声・画像品質に及ぼす影響の評価
- MPEG1総合品質に対する音声パケット損失及び画像フレムレートの影響の評価
- IPパケット損失がMPEG1画像品質に及ぼす影響の評価
- TCP通信を帯域保証する場合の問題点の分析
- TCP通信を帯域保証する場合の問題点の分析
- TCP通信を帯域保証する場合の問題点の分析
- 複数のTCP通信にWFQを適用する場合の通信品質の検討
- TCP通信を帯域保証する場合の問題点の分析
- B-7-156 無線LAN VoIPハンドオーバー時における最適AP選択手法の検討(B-7. 情報ネットワーク,一般セッション)
- D-9-14 メール配送確認システムの提案(D-9. オフィスインフォメーションシステム,一般セッション)
- D-4-20 メタデータを基盤としたSemantic P2P Networkの提案(D-4. データ工学,一般セッション)
- B-7-74 アドホックネットワークにおける電子投票向け通信プロトコル(B-7.情報ネットワーク,一般講演)
- M-061 無線LAN VoIPにおける通話品質保持手法の検討(M分野:ユビキタス・モバイルコンピューティング)
- B-034 RDFaによるメタデータを活用したWebコンテンツ配信技術(B分野:ソフトウェア)
- Adhoc Grid環境におけるユーザ満足度を考慮したスケジューリング(セッション8-A:情報管理,資源管理)
- Adhoc Grid環境におけるユーザ満足度を考慮したスケジューリング(セッション8-A:情報管理,資源管理)
- アドホックネットワークにおけるAODVに基づく複数経路の新構成手法
- 無線LAN VoIPサービスにおける802.11e HCCAアドミションコントロールのための適切な時間予約に関する研究
- レートに基づく複数経路通信プロトコルR-M/TCPにおけるデータ分配手法(モバイルとインターネットの融合, 及び一般)
- レートに基づく複数経路通信プロトコルR-M/TCPにおけるデータ分配手法(モバイルとインターネットの融合, 及び一般)
- レートに基づく複数経路通信プロトコルR-M/TCPにおけるデータ分配手法(モバイルとインターネットの融合, 及び一般)
- ウェーブレットの位置情報保存性を利用した高精度動き推定
- ウェーブレットの位置情報保存性を利用した高精度動き推定
- ウェーブレットの位置情報保存性を利用した高精度動き推定(オフィスにおけるマルチメディア通信/品質及び一般)
- トランスコードを伴ったP2Pビデオストリーミングの検討(映像配信)
- 2V-9 TS型可変速度TDMスイッチにおけるマルチキャスト対応スケジューリング方式
- 10-216 東京大学における教育の情報化 : 東京大学オープンコースウェア(UTOCW)の活用(口頭発表論文,オーガナイズドセッション「オープンコースウエアとその活用」-I)
- WWWにおけるデータ転送量の特徴の解析
- ダイヤルアップサーバの個人別利用時間に関する考察
- MPEGで符号化された動画像における統計多重効果の評価
- リアルタイムMPEGソースのモデル化に関する考察
- Ring Shuffle Patternによる多段接続網を用いた入力分散型可変長パケットスイッチ
- 3Y-7 コメント付きユーザ配信型ライブ放送の「面白い部分」を抜き出したアーカイブ化(線画像・画像検索・映像処理,学生セッション,人工知能と認知科学,情報処理学会創立50周年記念)
- Gateway Node指向型無線マルチホップ通信におけるルート探索方法の検討
- Gateway Node指向型無線マルチホップ通信におけるルート探索方法の検討
- 無線マルチホップ通信におけるGateway指向型モデルの検討
- 無線マルチホップ通信におけるGateway指向型モデルの検討
- 無線マルチホップ通信におけるGateway指向型モデルの検討
- 2ZB-1 ユーザ参加型無線LAN位置測定システムにおけるアクセスポイント移設の検出法(ユビキタスネットワーク,学生セッション,ネットワーク,情報処理学会創立50周年記念)
- ステレオ画像の視差検出と符号化への応用
- 視差情報を用いた多眼3次元画像の効果的符号化法
- Improving End-to-End Throughput for File Transfer Using Combined Layers
- A Multiple Tree Routing for Multipoint-to-Multipoint Communication
- Ring Shuffle Patternによる多段接続網を用いた入力分散型可変長パケットスイッチ
- Javaのクラスファイル変換によるスレッド移送
- Javaにおけるクラス定義の動的交換システムの構築
- 3S-9 意味データを解釈するエージェントを用いたデータ活用環境の開発(情報推薦(1),学生セッション,データベースとメディア,情報処理学会創立50周年記念)
- 複数経路通信プロトコルM/TCPのFreeBSDへの実装の性能向上
- 複数経路通信プロトコルM/TCPの FreeBSD への実装
- インターネットにおけるエンド・エンドでの複数パス利用プラットフオーム(セッション9)
- インターネットにおけるエンド・エンドでの複数パス利用プラットフオーム(セッション9)
- 5ZB-8 ネットワーク情報を用いた異種ネットワーク間におけるハンドオーバーサポートアーキテクチャ(ネットワーク応用(1),学生セッション,ネットワーク,情報処理学会創立50周年記念)
- 5Z-5 コグニティブ無線における基地局電力制御によるユーザ効用の最大化(無線通信方式とアクセス制御,学生セッション,ネットワーク,情報処理学会創立50周年記念)
- B-6-72 二次利用システム間の周波数利用公平性を考慮したコグニティブ無線技術の提案(B-6.ネットワークシステム,一般セッション)
- 可用性、安心性に優れた分散ファイルシステムの実装と評価
- 可用性、安心性に優れた分散ファイルシステムの実装と評価(セッション4)
- 「ディスカバー・オムニポイント」
- 並列離散事象シミュレーションにおけるヒープデータ構造を用いた論理プロセスのスケジューリング
- 待ち行列システムの並列イベント駆動シミュレーションの高速化に関する一考察
- 超並列C言語NCXにおける遠隔評価による通信の最適化
- ウェーブレットの位置情報保存性を利用した高精度動き推定(オフィスにおけるマルチメディア通信/品質及び一般)
- ウェーブレットの位置情報保存性を利用した高精度動き推定(オフィスにおけるマルチメディア通信/品質及び一般)
- HTML構造における頻出パターンのマイニングによるWWWからの情報抽出(情報抽出・構造分析)(ユビキタス社会における情報流通および一般)
- ライブ・インタラクティブな高ビットレートMPEGストリーミングにおけるQoSの向上(セッション9)
- ライブ・インタラクティブな高ビットレートMPEGストリーミングにおけるQoSの向上(セッション9)
- 複数経路を用いるマルチキャストストリーミングに関する検討 : 複数経路通信プロトコルM/RTP(セッション1)
- 複数経路を用いるマルチキャストストリーミングに関する検討 : 複数経路通信プロトコルM/RTP(セッション1)
- データマイニング手法を用いたモバイルエージェント分散データ検索システム
- タイムワープ方式向けFIFOキュークラスライブラリの実装と評価
- MPEG2におけるイントラマクロブロック配置の効率化
- インフォーマルコミュニケーション誘発のためのWebブラウザー上での他者の可視化手法の検討
- 無線環境における複数経路通信プロトコルの検討