検索エンジン基盤TSUBAKIを用いた大規模ウェブ情報クラスタリングシステムの構築(Web情報アクセス)
スポンサーリンク
概要
- 論文の詳細を見る
本稿では,検索エンジン基盤TSUBAKIを使って検索されたウェブページを,ページ中の複合名詞に注目して自動的にクラスタリングするシステムについて述べる.検索エンジン基盤TSUBAKIとは,日本語ウェブページ1億件を対象にした研究用途に主眼をおいた検索エンジンである.本クラスタリングシステムは,このTSUBAKIと連係することで,数千から数万性のウェブページを分類することが可能であり,さらに,豊富な言語情報を利用した高精度な複合名詞抽出を行うことが可能である.簡単な評価実験の結果,本システムを用いることでTSUBAKIの検索結果中で下位に埋もれているウェブページに対し効率よくアクセスできること,さらには,抽出した複合名詞が有用な情報へアクセスする際に有効であることがわかった.
- 2008-01-21
著者
-
黒橋 禎夫
情報通信研究機構
-
新里 圭司
京都大学大学院情報学研究科
-
馬場 康夫
京都大学,現在,キヤノン株式会社
-
馬場 康夫
京都大学 現在 キヤノン株式会社
-
新里 圭司
京都大学
-
黒橋 禎夫
京都大学大学院情報学研究科
-
馬場 康夫
京都大学大学院情報学研究科知能情報学専攻
関連論文
- Webページの情報発信者の同定
- 主要・対立表現の俯瞰的把握 : ウェブの情報信頼性分析に向けて(情報分析・要約(テーマセッション1))
- 依存関係確率モデルを用いた統計的句アライメント
- 大規模テキストコーパスからの知識獲得
- 情報爆発時代における情報管理・融合・活用基盤(情報爆発時代に向けた新しいIT基盤技術の研究)
- 表層・語彙的特徴量に基づくブログの面白さ分析(学生セッション I)
- 言語情報と映像情報の統合による物体のモデル学習と認識(自然言語,新しいパラダイムの中での分散システム/インターネット運用・管理)
- 翻訳用例の柔軟な結合に関する考察 (機械翻訳技術の向上)
- 日本語文生成における語彙選択に必要な要因とその性質
- 名詞句「AのB」「AB」の用例を利用した換喩解析
- 構文情報を利用した電子ニュース記事のクラスタリングシステムの作成と評価
- 自動通訳に向けた用語自動収集(翻訳,対話)
- 構文情報を利用した電子ニュース記事のクラスタリングシステムの作成と評価
- 意味ネットワークからの文章生成
- 小規模タグ付きコーパスと自動獲得した大規模語彙知識を用いた識別モデルに基づくゼロ照応解析
- 文脈に依存した述語の同義関係獲得
- 1.キーワードサーチを超える情報爆発サーチ : 自然言語処理で価値ある未知をマイニング(パートI:情報爆発時代における新しい基盤技術,情報爆発時代におけるわくわくするITの創出を目指して)
- 用例ベース翻訳の確率的モデル化
- 機械翻訳最新事情 : (下)評価型ワークショップの動向と日本からの貢献
- 帰属文書数に基づく Web ページ情報発信者の専門性分析
- 帰属文書数に基づくWebページ情報発信者の専門性分析
- 帰属文書数に基づくWebページ情報発信者の専門性分析
- メッセージの背後に潜む「問い」の抽出
- 多言語コミュニティヘの用例ベース翻訳の適用(言語グリッドと異文化コラボレーション)
- MDL原理に基づく辞書定義文の圧縮と共通性の発見
- 情報の信頼性分析に向けた評価データおよびプロトタイプシステムWISDOM
- 情報の信頼性分析に向けた評価データおよびプロトタイプシステムWISDOM(QA・Web検索)
- 事例の重み付けに基づく自動獲得されたコーパスの効果的な利用法と評価極性分類への応用(「ユニバーサルコミュニケーションを実現するための言語処理技術」シンポジウム)
- 隠れ変数を持つ条件付き確率場による依存構造木の評価極性分類 (言語理解とコミュニケーション)
- 表層的語彙分布に基づく談話/テクストの主観性・主体性分析に向けて
- HTML文書からの単語意味クラスの単純な自動獲得手法(自然言語)
- HTML文書からの単語間の上位下位関係の自動獲得
- HTML文書中の箇条書きとその表題に注目した下位語の自動獲得(情報抽出・単語分類)(テーマ:「Webマイニングによる情報活動と自然言語処理」その他一般)
- HTML文書中の箇条書きとその表題に注目した下位語の自動獲得(情報抽出・単語分類)(テーマ:「Webマイニングによる情報活用と自然言語処理」その他一般)
- HTML文書からの単語間の上位下位関係の自動獲得(獲得,辞書)
- HTML文書からの単語間の上位下位関係の自動獲得(獲得, 辞書)(言語理解とコミュニケーション)
- Webページの大規模収集・検索基盤の構築と運用
- Webページの大規模収集・検索基盤の構築と運用
- 隠れ変数を持つ条件付き確率場による依存構造木の評価極性分類
- E-001 Web文書からの主観的・客観的評価表現の抽出(自然言語・音声・音楽,一般論文)
- D-036 Web情報信頼性分析のためのページ外観情報の抽出(データベース,一般論文)
- D-035 Webページの著者の同定(データベース,一般論文)
- RE-002 二段階の機械学習を用いたボトムアップ型の固有表現認識(自然言語・音声・音楽,査読付き論文)
- 言語の理解へ
- キーワード蒸留型クラスタリングによる大規模ウェブ情報の俯瞰
- クエリの語句の重要度と係り受けを考慮した自然文検索(検索・対話)
- クエリの語句の重要度と係り受けを考慮した自然文検索(検索・対話)
- 依存関係確率モデルを用いた統計的句アライメント (機械翻訳技術の向上)
- 大域的情報を用いた日本語固有表現認識
- 主要・対立表現の俯瞰的把握 : ウェブの情報信頼性分析に向けて(情報分析・要約(テーマセッション1))
- 検索エンジン基盤TSUBAKIを用いた大規模ウェブ情報クラスタリングシステムの構築(Web情報アクセス)
- 検索エンジン基盤TSUBAKIを用いた大規模ウェブ情報クラスタリングシステムの構築(Web情報アクセス)
- 自然言語入力と目次との柔軟な照合による図書検索システム
- 出現密度分布を用いた語の重要説明箇所の特定
- 出現密度分布を用いた語の重要説明箇所の特定
- 意味ネットワークからの文章生成
- 自動構築した大規模格フレームに基づく構文・格解析の統合的確率モデル
- 格フレームを用いた自然言語処理(下)格フレームに基づく構文・格解析とその応用
- 格フレームを用いた自然言語処理(上)基本語彙の整理と格フレームの自動獲得
- 高性能計算環境を用いたWebからの大規模格フレーム構築
- 名詞格フレーム辞書の自動構築とそれを用いた名詞句の関係解析
- 格フレーム辞書の漸次的自動構築
- 表層・語彙的特徴量に基づくブログの面白さ分析(学生セッション I)
- 自動獲得した名詞関係辞書に基づく共参照解析の高度化
- 会話コンテンツ獲得と管理(会話情報学)
- 依存関係確率モデルを用いた統計的句アライメント
- 形態論的制約を用いたオンライン未知語獲得
- クエリの語句の重要度と係り受けを考慮した自然文検索 (情報学基礎・自然言語処理)
- E-009 長い複合名詞の構造的な固有表現認識(自然言語・音声・音楽,一般論文)
- B33 科学技術文献を対象とする日中・中日機械翻訳 : 日中・中日言語処理技術の研究開発 その1(セッションB3情報システム構築2,一般発表概要,第7回情報プロフェッショナルシンポジウム)
- 4ZK-10 検索結果クラスタリングのためのページタイプの自動識別(情報爆発時代におけるテキストデータ処理,学生セッション,「情報爆発」時代に向けた新しいIT基盤技術)
- 言語情報と映像情報を統合した隠れマルコフモデルに基づくトピック推定(自然言語)
- 同位語を利用した不在インデックス
- 同位語を利用した不在インデックス
- 基本語ドメイン辞書の構築と未知語ドメイン推定を用いたブログ自動分類法への応用
- 述語項構造の共起情報と格フレームを用いた事態間知識の自動獲得
- 整合性尺度を用いた構造的アラインメント
- Web時代の音声・言語技術
- 3.情報爆発時代のWebのサーチ・分析技術(情報爆発が創り出すサイバーフィジカルな情報処理)
- 機械翻訳の現状と課題(機械翻訳)
- 構文・照応・評価情報つきブログコーパスの構築
- E-003 大規模ウェブ情報クラスタリングにおけるラベルの組織化(自然言語・音声・音楽,一般論文)
- 談話構造解析に基づくスライドの自動生成
- 料理教示発話の理解と作業構造の自動抽出(特別セッション「言語理解と行動」(2))
- 料理教示発話の理解と作業構造の自動抽出(特別セッション : 言語理解と行動(2))
- 大規模格フレームを用いた識別モデルに基づく日本語ゼロ照応解析
- 2.TSUBAKI : 深い言語処理を特長とするオープンサーチエンジン基盤(パートII:情報分野研究者のためのオンリーワン共有イノベーションプラットフォーム,情報爆発時代におけるわくわくするITの創出を目指して)
- 構造を持った定型表現の自動獲得と機械翻訳での利用 (機械翻訳技術の向上)
- 情報の信頼性評価に関する基盤技術の研究開発(情報の信頼性評価)
- 日本語未知語のテキストからの自動獲得(知識発見,第1回テキストマイニング・シンポジウム)
- 大規模語彙的知識に基づく受身形と能動形の表層格の対応付け
- 会話型知識プロセスのためのテキストの自動プレゼンテーション (2005年情報学シンポジウム講演論文集--社会システムを支える情報学) -- (セッション5:知識獲得・記述の支援)
- テキストの表層情報と潜在情報を利用した適合性フィードバック
- ユニット制約の緩和による柔軟な日本語文圧縮
- ユニット制約の緩和による柔軟な日本語文圧縮
- 日中共通漢字の整理とこれを利用した日中機械翻訳の高度化 (特許情報普及活動功労者表彰 発足記念版) -- (機械翻訳技術の向上)
- 言語コンピューティング(知能コンピューティングとその周辺〔第4回〕)
- 語彙と文脈情報を用いた反義の詳細クラス分類
- 言語のセマンティックス(セマンティックコンピューティング)
- 世界の言語研究所(19)言語資料コンソーシアム(Linguistic Data Consortium:LDC)(アメリカ合衆国)