Webサイトの階層的なWebディレクトリへの自動分類手法(QA・Web検索)
スポンサーリンク
概要
- 論文の詳細を見る
ディレクトリ型の検索サービスはあらかじめWebページが項目別にまとめられているので,初心者でも簡単にWWW(World Wide Web)検索をすることができる.このようなサービスを運営する側はWebディレクトリへのサイト登録や分類,管理といった作業を人手により行っているため,膨大なWebページを処理することが困難となる.そのため,我々は人手で行っているWebディレクトリの管理作業を自動化するシステムの構築を目指している.これまで,サイトの内容語を扱わず,ホームページに記述されたmetaタグのname属性値であるkeywordとdescriptionをキーワードとして階層のトップレベルで分類を行い,その結果として分類精度が82%となり,本文を利用した場合の55%を大幅に上回る分類性能を得ることができた.本稿では,これまでトップレベルで行っていた分類を拡張し,ディレクトリ階層全体を対象としてWebサイトを分類する手法について述べる.階層構造全体を対象とすることで,より現実的で,実用的なWebディレクトリの構築を行うことが可能となる.階層的な分類においてもkeyword,description属性値をキーワードとして利用することの有効性を確かめるために,未分類のデータを利用して実験を行った結果,metaタグのみをキーワードとして利用したシステムは平均62.7%の分類精度を得ることができた.比較として,metaタグを使わずにHTML文書の本文を利用した場合の分類結果を求めると42.3%であった.これより,階層的な分類においてもHTML文書の本文を利用するよりmetaタグのみを利用した方が有効であることが分かった.また,平均精度が60%を超えていることから,半自動でのWebディレクトリの構築が可能であると考えられる.
- 社団法人電子情報通信学会の論文
- 2007-07-17
著者
関連論文
- EMアルゴリズムの最適ループ回数の予測を用いた語義判別規則の教師なし学習(自然言語)
- 潜在的文脈関連度を用いた検索質問拡張
- 語義の特異性を利用した慣用表現の自動抽出
- 片方向の共起性による述語型定型表現の自動抽出
- コーパスからの付属語的表現の自動抽出
- 疑似Nグラムを用いた助詞的定型表現の自動抽出
- コーパスからの関係表現の自動抽出
- JEIDA機械翻訳システム評価基準(品質評価編) : 英日翻訳の品質評価項目の検討と評価用コーパスの作成
- 機械学習を用いた喉頭摘出者音声を対象とした無声摩擦音の補完(福祉と知能・認知障害/一般)
- 機械学習を用いた喉頭摘出者音声を対象とした無声摩擦音の補完(福祉と知能・認知障害/一般)
- 日本語翻訳タスクへの帰納論理プログラミングの適用
- NMFによる重み付きハイパーグラフを用いたアンサンブル文書クラスタリング
- Webサイトの階層的なWebディレクトリへの自動分類手法
- 半教師有りクラスタリングを用いた語義数の推定と語義別用例の収集
- Webサイトの階層的なWebディレクトリへの自動分類手法(QA・Web検索)
- NMFとリンクベースの修正法によるピンポン型文書クラスタリング(一般セッション「分類と抽出」)
- NMFとリンクベースの修正法によるピンポン型文書クラスタリング(一般セッション「分類と抽出」)
- EMアルゴリズムの最適ループ回数の予測を用いた語義判別規則の教師なし学習
- 情報検索のための概念ベクトル生成手法
- PDDPによる概念ベクトルを用いた情報検索システム
- PDDPによる概念ベクトルを用いた情報検索システム
- ランダム・プロジェクションによるベクトル空間モデルの次元削減
- 半教師有りクラスタリングを用いた語義数の推定と語義別用例の収集(語彙2)
- 文書分類を用いたスパムメール判定手法(フィルタリング、文書分類)(テーマ:「Webマイニングによる情報活動と自然言語処理」その他一般)
- 文書分類を用いたスパムメール判定手法(フィルタリング、文書分類)(テーマ:「Webマイニングによる情報活用と自然言語処理」その他一般)
- Webページ内の目的部分の自動抽出(情報抽出・翻訳知識獲得)
- 多項分布と一様分布の混合分布による語義の事前分布の推定(多義性解消)
- 多項分布と一様分布の混合分布による語義の事前分布の推定(多義性解消)(言語理解とコミュニケーション)
- 多項分布と一様分布の混合分布による語義の事前分布の推定
- SVDPACKC とその語義判別問題への利用
- 単語クラスタリングの語義判別問題への応用
- 情報検索手法を利用した語義判別問題の高速解法
- 教師データ間距離学習を利用した新語義用例の検出
- コーパスを利用した分類語彙表の未登録語義の発見
- コーパスを利用した分類語彙表の未登録語義の発見
- EM アルゴリズムを用いた教師なし学習の日本語翻訳タスクへの適用
- SENSEVAL2日本語翻訳タスクに向けて作成した語義判別規則学習システムIbaraki
- 日本語形態素解析の分類問題への変換とその解法
- 素性間の共起性を検査するCo-trainingによる語義判別規則の学習
- 素性間の共起性を検査するCo-trainingによる語義判別規則の学習
- 決定リストを弱学習器としたアダブーストによる日本語単語分割
- 日本語単語分割へのタグなしコーパスとタグ付きコーパスの利用
- 表記情報をデフォルトの証拠として用いた決定リストによる同音異義語の誤り検出
- 日本語形態素解析のクラス分類問題への変換とその解法
- 文字列が単語になる確率を用いた未知語抽出
- 平仮名N-gramによる平仮名列の誤り検出とその修正 (新しいシステムソフトウェア)
- 複合語からの証拠に重みをつけた決定リストによる同音異義語判別
- 誤りやすい同音異義語の収集
- 誤りやすい同音異義語の収集
- 複合語判定を優先させた決定リストによる同音異義語判定
- コーパスとシソーラスを利用した名詞間距離の設定
- 2連続平仮名文字列を2次情報とした文検索
- 情報検索システムの統計的手法による特徴と精度の分析
- ランダム・プロジェクションによるベクトル空間情報検索モデルの次元削除
- コンセプト・プロジェクションにおける関連性フィードバックを用いた概念ベクトルの更新手法
- 解散フーリエ変換を用いたベクトル空間モデルの次元削減
- H-005 昼間における空画像からの雲と太陽領域の抽出手法(映像解析・照明,H分野:画像認識・メディア理解)
- 外れ値検出手法を利用した新語義の検出