blog の自動収集と監視
スポンサーリンク
概要
- 論文の詳細を見る
Weblogs (blogs) are now thought of as a potentially useful information source. Although the definition of blogs is not necessarily definite, it is generally understood that they are personal web pages authored by a single individual and made up of a sequence of dated entries of the authors thoughts, that are arranged chronologically. In Japan, since long before blog software became available, people have written `diaries on the web. These web diaries are quite similar to blogs in their content, and people still write them without any blog software. As we will show, hand-edited blogs are quite numerous in Japan, though most people now think of blogs as pages usually published using one of the variants of public-domain blog software. Therefore, it is quite difficult to exhaustively collect Japanese blogs, i.e., collect blogs made with blog software and web diaries written as normal web pages. With this as the motivation for our work, we present a system that tries to automatically collect and monitor Japanese blog collections that include not only ones made with blog software but also ones written as normal web pages. Our approach is based on extraction of date expressions and analysis of HTML documents, to avoid having to depend on specific blog software, RSS, or the ping server.
- 社団法人 人工知能学会の論文
- 2004-11-01
著者
-
奥村 学
東京工業大学精密工学研究所
-
奥村 学
東京工業大学
-
南野 朋之
東京工業大学大学院総合理工学研究科
-
鈴木 泰裕
東京工業大学大学院総合理工学研究科
-
藤木 稔明
東京工業大学 大学院総合理工学研究科
-
鈴木 泰裕
東京工業大学 大学院総合理工学研究科
関連論文
- 大域的な文章構造の類似性を利用したクローズドキャプション中の定型的な文章区間の抽出(自然言語処理)
- 半教師有りクラスタリングを用いた Web 検索結果における人名の曖昧性解消
- スピンモデルによる単語の感情極性抽出(自然言語)
- 新語義の発見 : 意味解析における新しいタスク(編集委員今年の抱負2009:経糸から横糸まで)
- 「サ変名詞+する」から動詞相当句への言い換え
- 放送番組を素材としたマルチメディア百科事典の自動構築
- 元会長 田中穂積先生を偲んで
- 特許,論文間の引用関係を用いた論文用語の特許用語への変換(語彙・文書書類)
- テキスト結束性を考慮したentity gridに基づく局所的一貫性モデル
- イベントの生起時間帯判定(分類, ブログ)
- 1.テキスト評価分析の技術とその応用(ユーザ作成のコンテンツに着目した嗜好・評判抽出, 利用者の好みをとらえ活かす-嗜好抽出技術の最前線-)
- 抜粋による複数文書要約を評価するためのコーパスと評価指標
- C11 特許,論文データベースを統合した検索環境および動向分析ツールの構築(セッションC1(情報処理技術),一般発表概要:各セッション報告,INFOPRO2006)
- 文書横断文間関係を考慮した動向情報の抽出と可視化(情報抽出・可視化)
- 特許, 論文データベースを統合した検索環境の構築(重要語抽出・検索・文書分類)
- 文書横断文間関係を考慮した動向情報の抽出と可視化(情報抽出・可視化)
- 特許, 論文データベースを統合した検索環境の構築(重要語抽出・検索・文書分類)
- ブログマイニング技術の最新動向
- 施設配置問題による文書要約のモデル化
- 代表性のあるコーパスを利用した日本語意味解析(日本語コーパス)
- WEB上の画像の分類とメタデータ付与による携帯電話向けWEB表示(セッション1:メタデータと自動分類、知識支援)
- WEB上の画像の分類とメタデータ付与による携帯電話向けWEB表示(セッション1:メタデータと自動分類、知識支援)
- 重要文抽出と文圧縮を組み合わせた新たな抽出的要約手法(翻訳・要約・抽出)
- テキストの結束性判定のためのentity gridモデルの素性の検討(意味・談話)
- 重要文抽出と文圧縮を組み合わせた新たな抽出的要約手法(翻訳・要約・抽出)
- テキストの結束性判定のためのentity gridモデルの素性の検討(意味・談話)
- 新たなパラダイムシフトの可能性
- テキスト結束性判定のためのentity gridモデルの素性の検討 (情報学基礎・自然言語処理)
- ブログにおける偏り補正のための書き手のプロファイリング(情報の信頼性評価)
- 文書要約の最大充足化問題によるモデル化(翻訳・要約)
- 文書要約の最大充足化問題によるモデル化(翻訳・要約)
- 複数の分類スコアを用いたクラス所属確率の推定
- 文の感情極性判定における事例重み付けによるドメイン適応(情報抽出・評判分析)
- 単語の用例の半教師有りクラスタリング(単語・語彙(I))
- 言い換えを用いたテキスト要約の自動評価
- 言い換えを用いたテキストの自動評価
- 語義曖昧性解消のための領域適応手法の自動選択
- 言い換えを用いたテキストの自動評価
- AdaBoostを利用した字幕テキストからの定型表現文章区間抽出(テキストの類似性・文処理モデル)
- AdaBoostを利用した字幕テキストからの定型表現文章区間抽出(テキストの類似性・文処理モデル)
- 投票型回帰モデルによる要約の自動評価法
- 拡張ストリングカーネルを用いた要約システムの自動評価法(自然言語,情報処理技術のフロンティア)
- 文書要約の自動評価手法の提案と評価(セグメンテーション・要約)
- 国語辞典に「古い」と注記される語の現代書き言葉における使用傾向の調査
- テキストの断片に対する局所的一貫性モデル
- 事象の認識による発話生成に向けて(特別セッション「言語理解と行動」(3))
- 情報量の異なる複数の視点を考慮した実況解説の自動生成
- 事象の認識による発話生成に向けて(特別セッション : 言語理解と行動(3))
- 繰り返し構造を用いたWebページの構造化に関する研究
- Web上のテキストコーパスを利用したオノマトペ概念辞書の自動構築
- AAAI90
- D-5-12 EMアルゴリズムを利用した属性名抽出の検討(D-5.言語理解とコミュニケーション,一般講演)
- E_017 クローズドキャプションを対象とした被写体の動作推定(E分野:自然言語)
- 論文用語の特許用語への自動変換
- 特集「実践的多人数インタラクションの動向と展望」にあたって
- blogからの比較関係抽出(web情報抽出)
- テキスト中のイベントの生起時間帯判定(自然言語)
- 3D-6 レストランレビュー文章群からの評判とその対象の抽出(自然言語処理,一般セッション,人工知能と認知科学)
- 格変換による単文の言い換え
- 技術成果を効果的に伝える表題作成支援手法 : 開発と評価(自然言語)
- タイトルの文型が読者の関心に及ぼす影響の分析
- 表題の表現が読者の関心に与える影響分析
- 隠れ変数モデルによる複数語表現の感情極性分類(自然言語)
- テキストを対象とした評価情報の分析に関する研究動向
- 極性反転に対応した評価表現モデル(言語の統計モデル)
- 極性反転に対応した評価表現モデル(言語の統計モデル)
- 文書内に現れる因果関係の出現特性調査(解析, QA, 言語調査)
- 文書内に現れる因果関係の出現特性調査(解析, QA, 言語調査)
- スピンモデルによる単語の感情極性判定(シソーラス・辞書)
- 分類スコアに基づいたクラス事後確率の推定(コーパス, 学習, 対話, 要約)
- 機械学習とルールベースの組み合わせによる自動職業コーディング
- ルールベース手法と機械学習による自由回答の分類 : 職業コーディング自動化の方法(非定型データ分析の可能性)
- 機械学習とルールベースによる職業コーディング(テキスト検索,分類)
- 英語ディクテーション学習支援システムの構築
- 符号化問題として解く日本語係り受け解析(文の解析)
- blog分類のための半教師有り学習(Web情報アクセス)
- blog分類のための半教師有り学習(Web情報アクセス)
- 単語極性反転モデルによる評価文分類
- 単語極性反転モデルによる評価文分類(感情・評価)
- 2 Text Summarization Challenge : 自動要約の評価型ワークショップ(テキスト自動要約 : 知的活動支援の基本技術として)
- テキスト処理研究の動向 : 情報抽出・自動要約・質問応答における評価ワークショップの重要性(NTCIR : 情報アクセスに関わるテキスト処理技術の評価ワークショップ)
- TSC2(Text Summarization Challenge 2)の目指すもの
- 情報検索と要約の評価 : 第2回NTCIRワークショップ概要
- NTCIR Workshop 2の新しいタスクの紹介 : テキスト自動要約タスク(情報検索システムの力くらべ : テストコレクションによる評価)
- 手がかり句を用いた特許請求項の構造解析(自然言語)
- ローカルアラインメントを用いたテキスト間の柔軟な対応付け
- 手がかり句を用いた特許請求項の修辞構造解析
- 手がかり句を用いた特許請求項の修辞構造解析
- 語彙的結束性に基づく語彙的連鎖の計算
- 複数の動作を伴うアニメーテッドエージェントの自然言語による制御
- 特集「情報の信頼性評価」にあたって
- テキスト結束性を考慮した entity grid に基づく局所的一貫性モデル
- Support Vector Machineを用いた談話構造解析
- 日本語から手話への機械翻訳における手話単語辞書の補完方法について
- Web情報を利用した確率モデルによる略語推定(語彙・意味)
- Web情報を利用した確率モデルによる略語推定(語彙・意味)
- 複数文質問のタイプ同定(自然言語)
- 編集にあたって(テキスト自動要約 : 知的活動支援の基本技術として)
- 特許請求項読解支援のための「発明の詳細な説明」との自動対応付け
- 増進的曖昧性解消モデルに基づいた日本語解析