同一文抽出に基づく類似ページの検出と分類
スポンサーリンク
概要
- 論文の詳細を見る
The recent explosive increase of Web pages has made it possible for us to obtain a variety of information with a search engine. However, by some estimates, as many as 40% of the pages on the Web are duplicates of the other pages. Therefore, there is a problem that some search results contain duplicate pages. This paper proposes a method for finding similar pages from a huge amount of Web pages: hundred million Japanese Web pages. Similar pages are defined as two pages that share some sentences, and are classified into mirror pages, citation pages and plagiaristic pages, etc. First, in each page, its content region is extracted since sentences in a non-content region do not tend to be utilized for the similar page detection. From the content region in each page, relatively long sentences are extracted. This is because two pages tend to be relevant when they share relatively long sentences. A pair of pages that has the identical sentences is regarded as similar pages. Next, similar pages are classified based on several information such as an overlap ratio, the number of inlinks/outlinks, and the URL similarity. We conducted the similar page detection and classification on the large scale Japanese Web page collection, and can find some mirror pages, citation pages, and plagiaristic pages.
著者
関連論文
- 同一文抽出に基づく類似ページの検出と分類
- 大規模テキストコーパスからの知識獲得
- 情報爆発時代における情報管理・融合・活用基盤(情報爆発時代に向けた新しいIT基盤技術の研究)
- 表層・語彙的特徴量に基づくブログの面白さ分析(学生セッション I)
- 言語情報と映像情報の統合による物体のモデル学習と認識(自然言語,新しいパラダイムの中での分散システム/インターネット運用・管理)
- 日本語文生成における語彙選択に必要な要因とその性質
- 名詞句「AのB」「AB」の用例を利用した換喩解析
- 構文情報を利用した電子ニュース記事のクラスタリングシステムの作成と評価
- 構文情報を利用した電子ニュース記事のクラスタリングシステムの作成と評価
- 意味ネットワークからの文章生成
- 小規模タグ付きコーパスと自動獲得した大規模語彙知識を用いた識別モデルに基づくゼロ照応解析
- 文脈に依存した述語の同義関係獲得
- 1.キーワードサーチを超える情報爆発サーチ : 自然言語処理で価値ある未知をマイニング(パートI:情報爆発時代における新しい基盤技術,情報爆発時代におけるわくわくするITの創出を目指して)
- 用例ベース翻訳の確率的モデル化
- 機械翻訳最新事情 : (下)評価型ワークショップの動向と日本からの貢献
- 帰属文書数に基づくWebページ情報発信者の専門性分析
- 帰属文書数に基づくWebページ情報発信者の専門性分析
- メッセージの背後に潜む「問い」の抽出
- 多言語コミュニティヘの用例ベース翻訳の適用(言語グリッドと異文化コラボレーション)
- MDL原理に基づく辞書定義文の圧縮と共通性の発見
- 事例の重み付けに基づく自動獲得されたコーパスの効果的な利用法と評価極性分類への応用(「ユニバーサルコミュニケーションを実現するための言語処理技術」シンポジウム)
- RE-002 二段階の機械学習を用いたボトムアップ型の固有表現認識(自然言語・音声・音楽,査読付き論文)
- 言語の理解へ
- キーワード蒸留型クラスタリングによる大規模ウェブ情報の俯瞰
- クエリの語句の重要度と係り受けを考慮した自然文検索(検索・対話)
- クエリの語句の重要度と係り受けを考慮した自然文検索(検索・対話)
- 大域的情報を用いた日本語固有表現認識
- 自然言語入力と目次との柔軟な照合による図書検索システム
- 出現密度分布を用いた語の重要説明箇所の特定
- 出現密度分布を用いた語の重要説明箇所の特定
- 目次情報を利用した図書検索システム
- 表層・語彙的特徴量に基づくブログの面白さ分析(学生セッション I)
- 国語辞典を用いた名詞句「AのB」の意味解析
- 依存関係確率モデルを用いた統計的句アライメント
- 形態論的制約を用いたオンライン未知語獲得
- E-009 長い複合名詞の構造的な固有表現認識(自然言語・音声・音楽,一般論文)
- B33 科学技術文献を対象とする日中・中日機械翻訳 : 日中・中日言語処理技術の研究開発 その1(セッションB3情報システム構築2,一般発表概要,第7回情報プロフェッショナルシンポジウム)
- 4ZK-10 検索結果クラスタリングのためのページタイプの自動識別(情報爆発時代におけるテキストデータ処理,学生セッション,「情報爆発」時代に向けた新しいIT基盤技術)
- 言語情報と映像情報を統合した隠れマルコフモデルに基づくトピック推定(自然言語)
- 同位語を利用した不在インデックス
- 同位語を利用した不在インデックス
- 基本語ドメイン辞書の構築と未知語ドメイン推定を用いたブログ自動分類法への応用
- 述語項構造の共起情報と格フレームを用いた事態間知識の自動獲得
- Web時代の音声・言語技術
- 3.情報爆発時代のWebのサーチ・分析技術(情報爆発が創り出すサイバーフィジカルな情報処理)
- 構文・照応・評価情報つきブログコーパスの構築
- E-003 大規模ウェブ情報クラスタリングにおけるラベルの組織化(自然言語・音声・音楽,一般論文)
- 大規模格フレームを用いた識別モデルに基づく日本語ゼロ照応解析
- 構造を持った定型表現の自動獲得と機械翻訳での利用 (機械翻訳技術の向上)
- 日本語未知語のテキストからの自動獲得(知識発見,第1回テキストマイニング・シンポジウム)
- 大規模語彙的知識に基づく受身形と能動形の表層格の対応付け
- テキストの表層情報と潜在情報を利用した適合性フィードバック
- ユニット制約の緩和による柔軟な日本語文圧縮
- ユニット制約の緩和による柔軟な日本語文圧縮
- 日中共通漢字の整理とこれを利用した日中機械翻訳の高度化 (特許情報普及活動功労者表彰 発足記念版) -- (機械翻訳技術の向上)
- 語彙と文脈情報を用いた反義の詳細クラス分類
- 2段階のクラウドソーシングによる談話関係タグ付きコーパスの構築