繰返し構造に基づいたWebページの構造化(データマイニング)
スポンサーリンク
概要
- 論文の詳細を見る
World Wide Webは,急速に成長している巨大な情報源である.しかしながらWeb上の情報は,レイアウト記述言語で記述された,人が目で見て理解するための情報であるため,計算機で直接扱う際に困難がともなう.そこで本研究では,このようなWeb上の情報を人間が理解する構造に近い形で計算機が扱うことができるようにするために,HTML文書中に含まれる要素の繰返し構造に注目し,自動的な情報のセグメンテーション,構造化を行うことを目的とする.本論文では,まず完全一致ベースの繰返し構造によってWebページを構造化し,その後,構造化できなかった部分を類似度ベースの繰返し構造によって構造化する2段階手法を提案する.
- 一般社団法人情報処理学会の論文
- 2004-09-15
著者
-
斎藤 豪
東京工業大学大学院 理工学研究科 国際開発工学専攻
-
奥村 学
東京工業大学精密工学研究所
-
斎藤 豪
東京工業大学大学院理工学研究科
-
奥村 学
東京工業大学
-
齋藤 豪
東京工業大学大学院情報理工学研究科計算工学専攻
-
南野 朋之
東京工業大学大学院総合理工学研究科
-
斎藤 豪
東京工業大学 情報理工学研究科 計算工学専攻 中嶋研究室
-
斎藤 豪
東京工業大学大学院情報理工学研究科
-
斎藤 豪
東京工業大学
関連論文
- 大域的な文章構造の類似性を利用したクローズドキャプション中の定型的な文章区間の抽出(自然言語処理)
- 関東支部内での地産地消
- 半教師有りクラスタリングを用いた Web 検索結果における人名の曖昧性解消
- 仮想空間のための新しい足入力デバイス
- スピンモデルによる単語の感情極性抽出(自然言語)
- 新語義の発見 : 意味解析における新しいタスク(編集委員今年の抱負2009:経糸から横糸まで)
- 構造形式や波の作用の影響を考慮した桟橋上部工部材の表面塩化物イオン濃度の推定方法に関する提案
- 「サ変名詞+する」から動詞相当句への言い換え
- 放送番組を素材としたマルチメディア百科事典の自動構築
- 元会長 田中穂積先生を偲んで
- フライアッシュIV種を混和したポルトランドセメント : ケイ石微粉末-水系の水熱反応
- ポルトランドセメント-α-石英-水系の水熱反応に及ぼす水粉体比の影響
- 特許,論文間の引用関係を用いた論文用語の特許用語への変換(語彙・文書書類)
- テキスト結束性を考慮したentity gridに基づく局所的一貫性モデル
- イベントの生起時間帯判定(分類, ブログ)
- 1.テキスト評価分析の技術とその応用(ユーザ作成のコンテンツに着目した嗜好・評判抽出, 利用者の好みをとらえ活かす-嗜好抽出技術の最前線-)
- 途上国での社会基盤構造物-特に鉄筋コンクリート構造物-の老朽化に関する考察
- γ-2CaO・SiO_2含有ケイ酸カルシウム水和物固化体の炭酸化反応とバテライトの生成機構
- 抜粋による複数文書要約を評価するためのコーパスと評価指標
- C11 特許,論文データベースを統合した検索環境および動向分析ツールの構築(セッションC1(情報処理技術),一般発表概要:各セッション報告,INFOPRO2006)
- 文書横断文間関係を考慮した動向情報の抽出と可視化(情報抽出・可視化)
- 特許, 論文データベースを統合した検索環境の構築(重要語抽出・検索・文書分類)
- 文書横断文間関係を考慮した動向情報の抽出と可視化(情報抽出・可視化)
- 特許, 論文データベースを統合した検索環境の構築(重要語抽出・検索・文書分類)
- ブログマイニング技術の最新動向
- 施設配置問題による文書要約のモデル化
- 代表性のあるコーパスを利用した日本語意味解析(日本語コーパス)
- WEB上の画像の分類とメタデータ付与による携帯電話向けWEB表示(セッション1:メタデータと自動分類、知識支援)
- WEB上の画像の分類とメタデータ付与による携帯電話向けWEB表示(セッション1:メタデータと自動分類、知識支援)
- 重要文抽出と文圧縮を組み合わせた新たな抽出的要約手法(翻訳・要約・抽出)
- テキストの結束性判定のためのentity gridモデルの素性の検討(意味・談話)
- 重要文抽出と文圧縮を組み合わせた新たな抽出的要約手法(翻訳・要約・抽出)
- テキストの結束性判定のためのentity gridモデルの素性の検討(意味・談話)
- 新たなパラダイムシフトの可能性
- テキスト結束性判定のためのentity gridモデルの素性の検討 (情報学基礎・自然言語処理)
- ブログにおける偏り補正のための書き手のプロファイリング(情報の信頼性評価)
- 文書要約の最大充足化問題によるモデル化(翻訳・要約)
- 文書要約の最大充足化問題によるモデル化(翻訳・要約)
- 複数の分類スコアを用いたクラス所属確率の推定
- 文の感情極性判定における事例重み付けによるドメイン適応(情報抽出・評判分析)
- 単語の用例の半教師有りクラスタリング(単語・語彙(I))
- 水銀圧入式ポロシメータの加圧減圧履歴曲線を用いたモルタル供試体の空げき連続性評価
- 言い換えを用いたテキスト要約の自動評価
- 言い換えを用いたテキストの自動評価
- 語義曖昧性解消のための領域適応手法の自動選択
- 言い換えを用いたテキストの自動評価
- AdaBoostを利用した字幕テキストからの定型表現文章区間抽出(テキストの類似性・文処理モデル)
- AdaBoostを利用した字幕テキストからの定型表現文章区間抽出(テキストの類似性・文処理モデル)
- 投票型回帰モデルによる要約の自動評価法
- 拡張ストリングカーネルを用いた要約システムの自動評価法(自然言語,情報処理技術のフロンティア)
- 文書要約の自動評価手法の提案と評価(セグメンテーション・要約)
- 仮想空間のための新しい足入力デバイス
- 仮想空間のための新しい足入力デバイス
- 第38回セメント協会論文賞・受賞論文 電気的Ca溶脱促進試験を用いた実験的検討と実期間への換算に関する一考察
- 国語辞典に「古い」と注記される語の現代書き言葉における使用傾向の調査
- 材齢約30年の7つのドルフィンの鉄筋コンクリート調査に基づく腐食発生限界塩化物イオン濃度に関する考察
- 養生温度が材齢初期の高炉スラグ微粉末混和セメント硬化体の水和生成相および空隙構造に及ぼす影響
- テキストの断片に対する局所的一貫性モデル
- 事象の認識による発話生成に向けて(特別セッション「言語理解と行動」(3))
- 情報量の異なる複数の視点を考慮した実況解説の自動生成
- 事象の認識による発話生成に向けて(特別セッション : 言語理解と行動(3))
- 繰り返し構造を用いたWebページの構造化に関する研究
- Web上のテキストコーパスを利用したオノマトペ概念辞書の自動構築
- AAAI90
- D-5-12 EMアルゴリズムを利用した属性名抽出の検討(D-5.言語理解とコミュニケーション,一般講演)
- E_017 クローズドキャプションを対象とした被写体の動作推定(E分野:自然言語)
- 論文用語の特許用語への自動変換
- 特集「実践的多人数インタラクションの動向と展望」にあたって
- blogからの比較関係抽出(web情報抽出)
- テキスト中のイベントの生起時間帯判定(自然言語)
- 3D-6 レストランレビュー文章群からの評判とその対象の抽出(自然言語処理,一般セッション,人工知能と認知科学)
- 電気的Ca溶脱促進試験を用いた実験的検討と実期間への換算に関する一考察
- 無水石膏および石灰石微粉末の置換が高炉スラグ微粉末混和セメントの耐硫酸塩性に及ぼす影響
- 格変換による単文の言い換え
- 技術成果を効果的に伝える表題作成支援手法 : 開発と評価(自然言語)
- タイトルの文型が読者の関心に及ぼす影響の分析
- 表題の表現が読者の関心に与える影響分析
- 隠れ変数モデルによる複数語表現の感情極性分類(自然言語)
- テキストを対象とした評価情報の分析に関する研究動向
- 極性反転に対応した評価表現モデル(言語の統計モデル)
- 極性反転に対応した評価表現モデル(言語の統計モデル)
- 文書内に現れる因果関係の出現特性調査(解析, QA, 言語調査)
- 文書内に現れる因果関係の出現特性調査(解析, QA, 言語調査)
- スピンモデルによる単語の感情極性判定(シソーラス・辞書)
- 分類スコアに基づいたクラス事後確率の推定(コーパス, 学習, 対話, 要約)
- 機械学習とルールベースの組み合わせによる自動職業コーディング
- ルールベース手法と機械学習による自由回答の分類 : 職業コーディング自動化の方法(非定型データ分析の可能性)
- 機械学習とルールベースによる職業コーディング(テキスト検索,分類)
- 英語ディクテーション学習支援システムの構築
- 符号化問題として解く日本語係り受け解析(文の解析)
- A-16-6 CAVEにおける立体音響の生成
- A-16-5 WARAJI : CAVEのための足を用いた入力デバイス
- D-11-61 デジタルアーカイブのための絵の具の色再現実験の検討
- 多視点画像マッチング法を用いた立体物の形状計測
- γ-2CaO·SiO2を混和しオートクレーブ養生および促進炭酸化養生したセメント系材料の硫酸塩浸透性状に関する研究
- NHK『天才てれび君』映像制作現場訪問
- 繰返し構造に基づいたWebページの構造化(データマイニング)
- Kubelka-Munkの理論を用いたディジタルペインティングのための絵の具モデル
- 自然画像からの絵画風画像の自動生成
- 普通ポルトランドセメントの耐硫酸塩性に及ぼす高炉スラグ微粉末,石灰石微粉末および無水石こうの影響と浸漬温度の影響