Webサイトからの盗作の自動検出システム
スポンサーリンク
概要
- 論文の詳細を見る
Web サイトからの盗作の自動検出システムを構築した.盗作検出に必要な文書類似度の計算には,従来の文字ベース n-gram 手法に加え,新たに単語ベース n-gram 手法,(同義語変換への対処を想定した) シソーラス手法,さらに文字ベースまたは単語ベース n-gram とシソーラスの利用を組み合わせた手法を提案した.これらの手法について,盗作元とされる Web ページに,文末変換・順序変更・文削除・類義語変換によるそれぞれの改変とそれらの混合改変を加えることにより作成した疑似盗作データと被験者が作成した課題レポートを用いた類似度の評価実験を行った.その結果,盗作の程度変化の検出や盗作かオリジナルかの区分けには提案手法である単語ベース手法及び組み合わせ手法の方が従来の文字ベース手法より優れていることがわかった.
- 2009-11-09
著者
-
馬 青
龍谷大学
-
村田 真樹
独立行政法人情報通信研究機構
-
村田 真樹
鳥取大学
-
松山 秀人
大日本スクリーン製造(株)
-
村田 真樹
(独)情報通信研究機構
-
村田 真樹
独立行政法人情報通信研究機構 知識創成コミュニケーション研究センター
-
村田 真樹
独立行政法人通信総合研究所:けいはんな情報通信融合研究センター
-
村田 真樹
通信総合研究所
関連論文
- コミュニケーションサイトに投稿されたメッセージに対する著者の推定(情報抽出(テーマセッション3))
- 日本語発話文の敬語の誤用を指摘するシステム(人工知能)
- 表記選択支援のための優勢表記辞書の作成(語彙)
- メールの文章における段落間の接続の強さの推定(コミュニケーション支援(テーマセッション3))
- 岩波国語辞典を利用した語義タグ付きテキストデータベースの作成
- AS-4-3 敬語の誤用を指摘するシステム : GUIの実装(AS-4.円滑なコミュニケーション,シンポジウム)
- LE-002 テンス・アスペクト・モダリティの翻訳における機械翻訳システムの誤りの調査(E分野:自然言語)
- 自然言語処理技術を用いた大会プログラム作成支援について
- 用例ベースによるテンス・アスペクト・モダリティの日英翻訳
- WWWからの大規模動詞含意知識の獲得
- シリーズ型質問文に対して単純結合法を利用した逓減的加点質問応答システム
- 階層構造データ列の簡易な高速検索アルゴリズム(重要語抽出・検索・文書分類)
- 階層構造データ列の簡易な高速検索アルゴリズム(重要語抽出・検索・文書分類)
- 質問応答システムにおける逓減加点法に基づく複数記事情報の利用(質問応答・文書分類・自動収集)
- SENSEVAL2J 辞書タスクでのCRLの取り組み : 日本語単語の多義性解消における種々の機械学習手法と素性の比較
- 日本語文章における表層表現と用例を用いた動詞の省略の補完
- 多価イオンの衝突輻射モデルの構築の自動化支援
- コーパスからの形容詞概念階層の構築と評価 : 実データによる形容詞オントロジーの構築にむけて
- 自己組織型意味マップにおける形容詞と抽象名詞の分布 : 客観的なシソーラスをめざして(言語理解とコミュニケーション一般)
- 日本語名詞の意味マップの自己組織化
- SOMを用いた日本語意味マップの自己組織化
- 意味ソート msort : 意味的並べかえ手法による辞書の構築例とタグつきコーパスの作成例と情報提示システム例
- 意味ソートmsort : 意味的並べかえ手法による辞書の構築例とタグつきコーパスの作成例と情報提示システム例
- Webサイトからの盗作の自動検出システム
- 意味的制約を用いた日本語名詞における間接照応解析
- 用例や表層表現を用いた日本語文章中の指示詞・代名詞・ゼロ代名詞の指示対象の推定
- LE-001 生物医学文献での蛋白質名認識における過学習とTransductive SVMを用いた過学習の軽減(自然言語・音声・音楽)
- 投稿履歴と文体の類似判定を利用したQ&Aサイトにおけるなりすましユーザの検出
- 観光地に対する長所情報の収集と分類の試み(自然言語の論理と感情)
- 観光地に対する長所情報の収集と分類の試み(自然言語の論理と感情)
- 情報抽出表とソートグラフを利用したテキストマイニングシステム Simpleminer
- 入力文の格助詞ごとに学習データを分割した機械学習による受身文の能動文への変換における格助詞の変換
- 大規模記事群からの数値固有表現情報のテキストマイニング可視化システム(ツール・システム)
- 大規模記事群からの数値情報に関わるテキストマイニング・可視化
- E-012 大規模記事群からの数値固有表現情報のテキストマイニング可視化(E分野:自然言語・音声・音楽)
- LE_005 受け身文の能動文への変換における機械学習を用いた格助詞の変換に関する実験(E分野:自然言語)
- LE_001 テキストからの主要数値ペア群の抽出とそのグラフ化(E分野:自然言語)
- 事態の捉え方に関する副詞辞書の構築
- 日本語発話文における敬語の誤用を指摘するシステムの開発
- MuSTデータを利用した自動動向調査システムの開発(情報可視化,テキスト情報の要約と掲示に関わる自然言語処理シンポジウム及び一般)
- 用例に基づく手法と機械学習モデルの組合せによる訳語選択
- 表層表現に着目した自由回答アンケートの意図に基づく自動分類
- 対訳コーパスを利用したBerkeley FrameNetからの日本語Lexical Unitsの半自動的発見手法
- 概念辞書によるシステマティックなイノベーション支援に向けて (データによる分析と評価)
- メールの文章における段落間の接続の強さの推定(コミュニケーション支援(テーマセッション3))
- CICLing 2005
- Web サイトからの盗作の自動検出システム
- 機械学習手法を用いた日本語格解析 : 教師信号借用型と非借用型, さらには併用型
- 機械学習手法を用いた日本語格解析 : 教師信号借用型と非借用型, さらには併用型
- 複合動詞と主体化に関する考察--複合動詞「〜づける」の分析を通して
- 論文アブストラクトから原子分子の状態の情報を検出,抽出する方法の研究
- 質問応答システムの現状と展望
- 参加者から見たNTCIR(NTCIR : 情報アクセスに関わるテキスト処理技術の評価ワークショップ)
- 位置情報と分野情報を用いた情報検索
- 最大エントロピーモデルと書き換え規則に基づく固有表現抽出
- LF-004 自動言い換え技術を利用した三つの英語学習支援システム(F. 人工知能)
- 受け身/使役文の能動文への変換における機械学習を用いた格助詞の変換
- 機械学習を用いたタイ語の品詞タグづけ
- diffと言語処理
- 頻度に基づく正の例からの負の例の予測 : 日本語表現の誤り検出と外の関係の文の自動抽出
- diffと言語処理
- 頻度に基づく正の例からの負の例の予測 : 日本語表記の誤り検出と外の関係の文の自動抽出
- 連想型意味記憶モデルASM
- AS-6-1 発話文の敬語の誤用を指摘するシステム : プロトタイプの開発(AS-6. 円滑なコミュニケーションの解明へのアプローチ, 基礎・境界)
- 複数の辞書の定義文の照合に基づく同義表現の自動獲得
- モジュール型ニューラルネットによる品詞タグ付け
- NLP2000-23 / NC2000-17 モジュール型ニューラルネットによる品詞の曖昧性解消
- NLP2000-23 / NC2000-17 モジュール型ニューラルネットによる品詞の曖昧性解消
- 単語分布類似度を用いた類推による単語間の意味的関係獲得法
- 機械学習を用いたタイ語の品詞タグづけ
- A-15-15 柔軟な判定を行う日本語敬語誤用判定システムの開発(A-15.ヒューマン情報処理,一般セッション)
- 日本語の敬語誤用判定システム--判定ルールの妥当性の程度の数値化による柔軟な判定
- 英語を介した日中対訳辞書の自動構築
- 言い換えの統一的モデル : 尺度に基づく変形の利用
- 長さ可変文脈を用いたマルチニューロタガー
- 長さ可変文脈によるタイ語コーパスの自動品詞タグづけ
- 日本語文と英語文における統語構造認識とマジカルナンバー7±2
- 大量の自然言語テキストへの情報アクセス技術 (ヒューマンコミュニケーション特集) -- (自然言語)
- 翻訳メモリとコーパスを用いた学習に基づく訳語選択
- SENSEVAL2J辞書タスクでのCRLの取り組み
- 種々の機械学習手法を用いた多義解消実験
- サポートベクトルマシンを用いたテンス・アスペクト・モダリティの日英翻訳
- サポートベクトルマシンを用いたテンス・アスペクト・モダリティの日英翻訳
- 分布類似度とWikipediaから獲得した構造情報を利用した上位下位関係獲得
- 大規模分布類似度計算のためのベイズ手法を用いた新しい類似尺度
- 用例ベースによるテンス・アスペクト・モダリティの日英翻訳
- ニューラルネットとルールベース手法を統合した品詞タグづけシステム
- コーパスからの語順の学習
- 統計的手法による換慮の解釈
- 決定リスト, 用例ベース手法を用いたコーパス誤り検出・誤り訂正
- 決定リスト, 用例ベース手法を用いたコーパス誤り検出・誤り訂正
- 統計的手法による換喩解析
- コーパスからの語順の学習
- 排反な規則を用いた文節まとめあげ
- 機械学習手法を用いた名詞句の指示性の推定
- 品詞自動タグづけシステム : 伸縮性入力ニューロタガー
- 用例ベースによるモダリティの日英翻訳
- 学習による文節まとめあげ : 決定木学習, 最大エントロピー法, 用例ベースによる手法と排反な規則を用いる新手法の比較
- 高次知的機能の工学的実現に関する研究 (電気通信フロンティア技術の研究開発特集)
- A-13-6 心的状態を考慮したテキスト対話からの情緒推定(A-13.思考と言語,一般セッション)