部分文字列の頻度分布に基づいた同一テンプレートを持つWebページの自動収集(Webマイニング)(テーマ:「Webマイニングによる情報活動と自然言語処理」その他一般)
スポンサーリンク
概要
- 論文の詳細を見る
クローラー等が収集した大量のWebページから、テンプレートを共有するWebページ群を発見するデータ発見問題について考察する。各テンプレートから生成されたページ群は情報抽出やラッパー生成アルゴリズムの入力として利用できる。本稿では、この問題に対し部分文字列増幅法と呼ばれる線形時間アルゴリズムを利用し、実データを用いた実験により有効性を示す。この手法はコンテンツを記述する言語の頻度分布を利用するが、実際に9ヶ国の言語に対し分布を調べ、言語非依存性も示す。さらに、ノイズが混入する場合はノイズを分離する境界値の設定が必要だが、自然言語に普遍的な特徴を用いることで、設定の一部を自動化する方法を提案する。
- 一般社団法人情報処理学会の論文
- 2004-09-16
著者
-
山田 泰寛
九州大学ユーザーサイエンス機構
-
池田 大輔
九州大学大学院システム情報科学研究院
-
池田 大輔
九州大学附属図書館
-
山田 泰寛
九州大学大学院システム情報科学府
-
池田 大輔
九州大学システム情報
-
田中 省作
立命館大学文学部
-
田中 省作
九州大学情報基盤センター
-
松本 英樹
九州大学大学院システム情報科学府
関連論文
- 〈「ディジタル図書館」ワークショップ第38回 発表論文〉スモールサイエンスのための e-Science リポジトリの要求分析
- 外部連携サービスによる機関リポジトリの潜在需要の解析
- 接尾辞木を用いた圧縮尺度計算による効率よいスパムポスト検出手法(ポスターセッション,iDBフォーラム2008(招待講演・ポスター英語ディスカッション))
- プレーリストからの曲目やアーティストの相互関連抽出
- SNS(Social Networking Service)における信頼と図書館における応用(第33回ディジタル図書館ワークショップの論文)
- <発表論文>SNS (Social Networking Service) における信頼と図書館における応用 (「ディジタル図書館」ワークショップ 第33回)
- がん温熱化学療法の増感メカニズムの再考
- 3次元分散共有仮想空間を媒介とする3次元マルチメディアデータの交換・流通環境
- 統合検索システムDAISEnでの検索サイトフォーム分析(セッション9B : 情報統合)
- 統合検索システムDAISEnでの検索サイトフォーム分析(情報統合)(「夏のデータベースワークショップ(DBWS2003)」一般)
- 新個人認証システムPersonal IDが変える図書館の個人情報管理 : 個人情報やプライバシーに配慮した一歩先行く図書館サービスとは
- 部分文字列の数え上げによるブログスパムの検出(マイニングとフィルタリング)
- 部分文字列の数え上げによるブログスパムの検出(マイニングとフィルタリング)
- 平成18年度における研究開発 電子図書館システムの研究開発
- 文書群の局所性と大域性の差を利用したキーワード粒度評価(重要語抽出・検索・文書分類)
- 文書群の局所性と大域性の差を利用したキーワード粒度評価(重要語抽出・検索・文書分類)
- 教員データに対する多面的検索システム(eラーニング2, 夏のデータベースワークショップDBWS2005)
- 教員データに対する多面的検索システム(eラーニング2, 夏のデータベースワークショップ2005)
- 変化点検出を応用した時系列データからの突発現象の前兆検出アルゴリズム
- 変化点検出を応用した時系列データからの突発現象の前兆検出アルゴリズム
- 不一致を許す文字列照合のためのFFTを用いた確率的アルゴリズムの精度評価
- 単語の出現頻度に着目した病院評判情報の分析(抽出(1))
- 単語の出現頻度に着目した病院評判情報の分析(抽出(1))
- 部分文字列増幅法による共通パターン発見アルゴリズム
- 交代数を用いた多言語Webテキストからの共通部分特定とラッパーの生成法(データマイニング)
- テンプレート発見問題の定式化と部分文字列増幅法を用いたアルゴリズム(文字列アルゴリズム)
- 部分文字列増幅法による共通パタン発見アルゴリズム(パターン認識)
- 半構造化文書に対する木構造と文字列を組合せたラッパーの自動生成法(コーパス構築)(セマンティックウェブと自然言語処理その他一般)
- 文字列の頻度分布による共通パタン発見(パタン発見)(セマンティックウェブと自然言語処理その他一般)
- 文字列の頻度分布による共通パタン発見
- 九州大学自己点検・評価関連情報システム(セッション2:XML応用システム)
- Web上の多言語テキストデータからのラッパー自動生成
- D-6 専門検索サイトの動的統合による次世代検索システムDAISENにおける検索サイトエディタの開発(Web検索(1),D.データベース)
- n-gram交代数を用いた半構造化データの不要部分削除
- n-gram交代数を用いた半構造化データの不要部分削除
- Webグラフの構造解析 (「Webシステムにおける情報獲得支援技術」)
- 3次元分散共有仮想空間を媒介とする3次元マルチメディアデータの交換・流通環境
- 言語処理技術と教材作成の連携 : データベース・ソフトウェアを用いた英語学習教材の自動作成
- 統計的アプローチによる英語スラッシュ・リーディング教材の自動生成(自然言語)
- Web上の語の共起性に基づいたコロケーションの翻訳支援(ネットワークサービス)
- コロケーション翻訳支援システムに対する有用性の調査
- Web文書中の語の共起性を用いたコロケーション翻訳支援システムの実装
- D-1-6 動的刈り込み接尾辞木を用いた圧縮尺度計算によるスパム検出(D-1. コンピュテーション,一般セッション)
- チャンキング過程を考慮したスラッシュ・リーディング用文書の生成
- 背表紙画像を用いたネットワーク透過な仮想書架
- LF-003 Skew Divergenceに基づく母語話者/非母語話者文書の判別(F. 人工知能)
- <発表論文>研究支援ツールとしての機関リポジトリにおけるバージョン管理機能 (「ディジタル図書館」ワークショップ 第33回)
- ユビキタス図書館 : 偏在する図書館サービス
- 電子図書館と利用者のプライバシー : 履歴・個人情報の保護と利用の両立を目指して
- Webサービスを用いた読書録サービスの設計と実装
- 単純な部分文字列照合によるWebからの書誌情報の抽出
- 仮想書架における背表紙画像生成の自動化
- 高性能RFIDリーダ付き書架の性能評価と新たな図書館サービスの提案
- <発表論文>RFID技術を用いた図書館自動化への期待 (「ディジタル図書館」ワークショップ第26回)
- RFID技術を用いた図書館自動化への期待
- WWWからの情報抽出 : Webラッパーの自動構築(WWW上の情報の知的アクセスのためのテキスト処理)
- ウェブデータマイニング(「データマイニング特集号」)
- 部分文字列の頻度分布に基づいた同一テンプレートを持つWebページの自動収集(Webマイニング)(テーマ:「Webマイニングによる情報活動と自然言語処理」その他一般)
- 部分文字列の頻度分布に基づいた同一テンプレートを持つWebページの自動収集(Webマイニング)(テーマ:「Webマイニングによる情報活用と自然言語処理」その他一般)
- 部分文字列の頻度分布に基づいた同一テンプレートを持つWebページの自動収集
- Webベースのドイツ語多読支援システム
- 低頻度byte列を活用した言語識別(自然言語)
- 類語集合対応の推定と英語を介した辞書合成への応用
- 非内容語のN-gramに基づく英語母語話者性の推定(質問応答・文書分類・自動収集)
- 共起データに基づく名詞のn次元空間への配置
- LE-3 類語集合による英語を介して導出した対訳候補の絞り込み(E. 自然言語・文書)
- 係り受け情報を用いた名詞句「NP_1のNP_2」の意味関係の候補の抽出
- 学会講演データの多面的解析システム (テーマ:特集「ウェブデータの知的処理」および一般)
- 高性能RFIDリーダ付き書架の性能評価と新たな図書館サービスの提案
- 電子図書館の歴史と九大附属図書館の取り組み
- ランダムフォレストを用いた英語科学論文の分類と評価
- リポジトリシステムWEKOのコンテンツ再利用環境(SarabiWEKO)の開発
- The Computational Complexity of Hereditary Elementary Formal Systems
- リポジトリシステムWEKOのコンテンツ再利用環境(SarabiWEKO)の開発 (「ディジタル図書館」ワークショップ第41回 発表論文)
- 学校英文法の学参例文データベースとその応用:日本人英語科学論文における文法項目の使用傾向