Hidden Web サイトからの新規トピック文書の抽出
スポンサーリンク
概要
- 論文の詳細を見る
現在インターネット上には様々なWeb情報源が存在している.情報源の中には, 問合せインタフェースを介して種々のデータベースコンテンツを提供する情報源が存在する.Hidden Webサイトはそのような情報源の代表的な例である.一方, インターネットが情報流通の基盤となった今日では, Webコンテンツの分析に対するニーズが増大しており, コンテンツの分析による各種の知識発見が要求されている.Hidden Webサイトの情報源が内包するコンテンツも, 社会における関心事や情報ニーズを分析する際の手がかりとなる貴重な資源である.特に, 新規性の高いトピックの検出やトレンドの分析等の知識発見応用においては, そのコンテンツの時間的変化傾向を知ることが重要となる.しかし, Hidden Webサイトにおいては, 利用者がコンテンツ管理者から特別な手助けなしに問合せインタフェースのみを用いてその変化傾向を知ることは一般的に困難である.本論文では, テキストデータベースを内包するHidden Webサイトが提供する通常のキーワードに基づく問合せインタフェースのみを利用して, テキストデータベース中から新規性の高い文書を重点的に抽出するための手法を提案する.また, 実テキストデータを用いた実験を行い, 本手法の有効性を評価する.
- 2005-03-15
著者
関連論文
- 対象情報源の動的変化を考慮した分散ストリーム処理最適化手法の提案(セッション7b:ストリーム・スカイライン)
- オントロジを利用した異種河川測量データの統合(ポスターセッション,iDBフォーラム2008(招待講演・ポスター英語ディスカッション))
- グラフ分析を利用した文書集合からの話題構造マイニング(テキストマイニング,データ工学論文)
- 時系列データベースとストリーム処理の統合のためのデータモデルの提案(ストリームデータ1, 夏のデータベースワークショップDBWS2005)
- 時系列データベースとストリーム処理の統合のためのデータモデルの提案(ストリームデータ1, 夏のデータベースワークショップ2005)
- 3T-5 ストリーム処理における情報源の動的選択機能(センサデータベースとコンテンツ,学生セッション,データベースとメディア)
- ストリーム管理システムにおける永続化要求の妥当性評価(ストリーム,夏のデータベースワークショップDBWS 2006)
- 分散環境におけるストリーム処理の高信頼化(ストリーム,夏のデータベースワークショップDBWS 2006)
- ストリーム管理システムにおける永続化要求の妥当性評価(ストリーム)
- 分散環境におけるストリーム処理の高信頼化(ストリーム)
- 構造型P2Pネットワークにおけるキーワードを含むXPathによるXML文書検索(セッション7c:P2P)
- 6ZK-1 分散ストリーム処理管理システムORINOCOの評価(情報爆発時代におけるストリームデータと実世界情報処理,学生セッション,「情報爆発」時代に向けた新しいIT基盤技術)
- 分散ストリーム処理環境におけるアプリケーション配置最適化手法(夏のデータベースワークショップ2007(データ工学,一般))
- 仮想マシン技術を用いた持続型ストリーム処理環境の評価(夏のデータベースワークショップ2007(データ工学,一般))
- 分散ストリーム処理環境におけるアプリケーション配置最適化手法(ストリーム処理,夏のデータベースワークショップ2007(データ工学,一般))
- 仮想マシン技術を用いた持続型ストリーム処理環境の評価(ストリーム処理,夏のデータベースワークショップ2007(データ工学,一般))
- バイナリーデータに対するXMLビューの実現(XMLデータベース, データ工学論文)
- トピックを考慮した大規模文書情報源からのレコード抽出
- データクリーニングを統合した情報抽出システムの提案(情報抽出2,夏のデータベースワークショップDBWS 2006)
- 4Q-6 センサネットに対するXMLビューの提案(ストリーム・空間検索,学生セッション,データベースとメディア,情報処理学会創立50周年記念)
- 多重比率規則抽出のためのデータ分析手法(データマイニング, 夏のデータベースワークショップDBWS2005)
- Hidden Web サイトからの新規トピック文書の抽出
- プロービングとクラスタリングを用いた新規トピック文書抽出(セッション10B : クラスタリング)
- プロービングとクラスタリングを用いた新規トピック文書抽出(クラスタリング)(「夏のデータベースワークショップ(DBWS2003)」一般)
- プロービングとクラスタリングによる新規トピック文書抽出
- プロービングによるテキストデータベースからの新規トピック文書抽出
- 例示操作によるWebサイト構築支援ツールの実装
- 例示操作によるWebサイト構築支援ツールの実装
- 固有表現を用いたニュース記事分類手法の提案(クラスタリング, 夏のデータベースワークショップDBWS2005)
- 固有表現を用いたニュース記事分類手法の提案(クラスタリング, 夏のデータベースワークショップ2005)
- 到着頻度と関連性を考慮した時系列文書の連続的トピック分析(時系列とコンテンツ)(夏のデータベースワークショップDBWS2004)
- 到着頻度と関連性を考慮した時系列文書の連続的トピック分析(セッション4C : 時系列とコンテンツ)(夏のデータベースワークショップ : DBWS2004)
- RDB上のXSLT実体化ビューのインクリメンタルな更新について(XML 1)(夏のデータベースワークショップDBWS2004)
- RDB上のXSLT実体化ビューのインクリメンタルな更新について(セッション3B : XML1)(夏のデータベースワークショップ : DBWS2004)
- サポートベクターマシンを用いた気圧配置検出手法の提案 : 西高東低冬型を対象として
- 単語の専門性に着目した気象学論文からの専門語抽出(宇宙科学情報解析論文誌 第一号)
- 複数のユーザアカウントを用いたソーシャルブックマークスパムの検出
- 複数のユーザアカウントを用いたソーシャルブックマークスパムの検出
- ストリームデータ処理における異常検知手法の共有化に関する検討
- EPUBCFIを用いた読書情報管理システムの提案
- AISを用いた複合イベント処理の効率化
- 動的タイムワーピング距離を用いたX線天文データの類似検索(宇宙科学情報解析論文誌 第二号)
- トランザクショナルなストリームデータ処理の実現方式(ストリーム処理とI/O,ビックデータ工学及び一般)
- ソーシャルメディアにおけるローカルイベントを用いたユーザ位置推定手法
- 暗号化ストリームデータ処理における効率化の検討(データ処理の効率化,ビッグデータとソーシャルコンピューティング,及び一般)
- BP-3-1 ビッグデータ分析のためのデータ工学基盤研究(BP-3.知的環境を実現するビッグデータ解析と通信行動分析,パネルセッション,ソサイエティ企画)
- AISを用いた複合イベント処理の効率化(一般,フレッシュマンセッション及び一般)
- トランザクショナルなストリームデータ処理の実現方式