文書情報統合のためのテキスト表現モデルの提案と主題グラフを用いた実現
スポンサーリンク
概要
- 論文の詳細を見る
複数の文書の内容を統合することによって, 単一の文書からは得られないような重要な情報を取得することができる.このような文書情報の統合を行うためには, 検索, 分類等の様々なテキスト操作を柔軟に組み合わせて実行する必要がある.本稿では, リレーショナルデータモデルとのアナロジを用いたテキスト表現モデルを提案する.テキスト表現モデルは, 文書を形式的な表現(テキスト表現)で表し, これらテキスト表現のリストに対する演算からなるテキスト操作の体系(テキスト表現代数)を提供する.テキスト表現に, 単語の重要度をノードの重み, 単語間の関連度をリンクの重みとした主題グラフを採用し, 主題グラフに基づくテキスト用のデータベースおよび文書情報統合アプリケーションを構築する.その動作例を用いて, 主題グラフに対する演算の組合せによって, 有用な情報が得られることを示すとともに, テキスト表現モデルのカバー範囲を明らかにする.さらに, 主題グラフが, 一般に広く利用されているタームベクトルよりもテキスト表現として適していることを, 演算のタスク適用性および分析結果の可読性の観点から示す.また, 計算量に関する考察から主題グラフが大規模文書集合にも適用可能であることを示す.
- 2005-03-15
著者
-
片岡 良治
日本電信電話株式会社NTTサイバーソリューション研究所
-
中渡瀬 秀一
日本電信電話株式会社NTTサイバーソリューション研究所
-
富田 準二
日本電信電話株式会社, NTTサイバーソリューション研究所
-
石井 恵
日本電信電話株式会社, NTTサイバーソリューション研究所
-
石井 恵
日本電信電話株式会社 Nttサイバーソリューション研究所
-
富田 準二
日本電信電話株式会社 Nttサイバーソリューション研究所
-
片岡 良治
日本電信電話株式会社NTTサイバースペース研究所
-
片岡 良治
日本電信電話株式会社NTTコミュニケーション科学基礎研究所
-
片岡 良治
日本電信電話株式会社 NTTサイバーソリューション研究所
関連論文
- モバイル端末を考慮したロケーションアウェア情報検索(ポスターセッション,iDBフォーラム2008(招待講演・ポスター英語ディスカッション))
- 目的指向型ブログ検索システムBLOGRANGERの提案およびユーザ評価
- グラフ分析を利用した文書集合からの話題構造マイニング(テキストマイニング,データ工学論文)
- ポータルサービスを支えるナビゲーション技術(オフィスインフォメーションシステム及び一般)
- ソーシャルブックマークユーザのタグ付与行動に基づくスパマー判別手法(ウェブ情報とデータベースに関して(ポスター講演))
- マルチファセット型ブログ検索システムBLOGRANGERの開発(オフィスインフォメーションシステム及び一般)
- 楕円体問合せのための空間変換を用いた類似探索アルゴリズム
- 文書情報統合のためのテキスト表現モデルの提案と主題グラフを用いた実現
- ネット上の会話からの話題即時抽出技術の評価について(Webからの知識発見とネット応用)
- ネット上の会話からの話題即時抽出技術の評価について(Webからの知識発見とネット応用)
- 複数文書からの人物時系列情報の抽出手法
- 複数文書からの人物時系列情報の抽出手法
- 適合性分布が異なる情報源を用いたランキング学習
- 概念ベースに基づくWeb検索のクエリタイプ判定手法とその評価
- レアクエリを対象とした非クリック分析によるクエリ推薦方式の提案
- 評判検索におけるクエリ依存型の評価極性付与(意見・評判情報処理)
- ブログ記事からの意見文検索(意見・評判情報処理)
- 評判検索におけるクエリ依存型の評価極性付与
- 暗号・電子署名を用いたファイル共有システムの構築
- グラフモデルの提案とテキスト検索システムへの適用による評価
- D-006 ラベル指向情報検索における分類ラベル統合方式の検討(D.データベース)
- D-035 クエリログから抽出した関連語集合を用いたウェブページ検索(D分野:データベース,一般論文)
- 文書情報統合のためのテキスト表現モデルの提案と主題グラフを用いた実現
- 名詞句と単語の勢いを用いた話題抽出手法の提案(情報抽出・データマイニング)
- 発信協調型ナレッジ共有システムの提案
- 複数のWeb Wrapperによる高精度な情報抽出(セッション4:Web応用)
- 複数のWeb Wrapperによる高精度な情報抽出(セッション4:Web応用)
- 複数の Web Wrapper による高精度な情報抽出
- ブログ記事要約における重要文位置の調査
- 特徴的な固有表現を用いたラベル指向ナビゲーション手法の提案
- E-011 記事群の冗長度を削減するためのRSSニュースリーダ(E分野:自然言語)
- 発信者によるコンテンツ登録・流通制御型ポータル構成方法
- Blogのタグ間類似度のスコアリング
- コミュニティ抽出のためのクエリ共起語のクラスタリングに関する一考察(オフィスインフォメーションシステム及び一般)
- D-10-9 耐障害性を備えた全文検索エンジンの実装(D-10. ディペンダブルコンピューティング,一般セッション)
- 単語・意味属性間共起に基づくコーパス概念ベースの生成方式
- 単語間の階層関係に基づくテキスト分類方式(一般セッション,センシング技術とその応用)
- E-038 文書構造を考慮した近接度スコアを用いた文書検索結果ランキング方式(E分野:自然言語・音声・音楽,一般論文)
- 検索結果のアクセス分析に基づく情報要求ベースのランキング(ウェブ情報とデータベースに関して(ポスター講演))
- 局所構造を考慮したブログネットワークの分析(ウェブ情報とデータベースに関して(ポスター講演))
- 単語間の階層関係に基づくテキスト分類方式(一般セッション,センシング技術とその応用)
- 単語・意味属性間共起に基づく単語間の階層関係の抽出(言語理解とオントロジーシンポジウム)
- XMLベースのコンテンツガイドシステム実現について
- How-to型質問応答の実現に向けた質問回答文書の特徴分析(言い換え・質問応答)
- How-to型質問応答の実現に向けた質問回答文書の特徴分析(言い換え・質問応答)
- 複数のWeb Wrapperによる高精度な情報抽出
- 求める情報へユーザを導くナビゲーション型の情報検索技術 (特集 次世代ポータル技術)
- D-004 親ページ分類を用いたWEB画像の実用的な検索方法(D.データベース)
- 固有表現を用いたニュース記事分類手法の提案(クラスタリング, 夏のデータベースワークショップDBWS2005)
- 固有表現を用いたニュース記事分類手法の提案(クラスタリング, 夏のデータベースワークショップ2005)
- 特徴的な固有表現を用いたラベル指向ナビゲーション手法の提案(セッション4 : 情報検索)
- 特徴的な固有表現を用いたラベル指向ナビゲーション手法の提案(セッション4 : 情報検索)
- ビジネスインテリジェンスをめぐる展望 : 意思決定を支援するテキスト集約技術(ビジネスインテリジェンス及び一般)
- 単語・意味属性間共起に基づく概念ベースの拡張方式
- インスタント質問文検索システムの提案(テーマセッション,大規模マルチメディアデータを対象とした次世代検索およびマイニング)
- インスタント質問文検索システムの提案(テーマセッション,大規模マルチメディアデータを対象とした次世代検索およびマイニング)
- ウェブ検索サービスにおけるユーザが感じる推薦情報品質とITリテラシーとの関係(サービス品質,クラウド,SDN(Software-Defined Network),コンテンツ配信,一般)
- 地域特有の話題発見を支援するスマートフォン向けマップ型検索システム : 発見探地図エリアダス(地理情報システム,データ工学と情報マネジメント論文)
- D-007 偽陽性率に着目したオンライン学習を用いたスパム判別(Web,D分野:データベース)