ブログ記事集合を用いたポストとコメントとの自動分離抽出手法の提案
スポンサーリンク
概要
- 論文の詳細を見る
近年のブログの普及により,ブログのコンテンツを利用するサービスや研究が盛んになってきている.ブログのコンテンツは,ポストと呼ばれるブログの書き手によるコンテンツと,コメントと呼ばれるブログの読者によるコンテンツに大分する事ができる.ブログのコンテンツを利用する場合は,それらが別々に抽出できている事が望ましい.本論文では,ブログ記事集合を用いる事により,ポストとコメントを自動的に分離抽出する手法を提案する.本手法は,ポストはブログ記事集合全てのブログ記事に出現するが,コメントはいずれかのブログ記事にしか出現しないというアイデアが基になっている.また,本手法のアルゴリズムを実装したソフトウェアを用いて実験を行い,日本語ブログサイトに対しての有効性を示す.
- 2009-11-13
著者
-
山本 幹雄
筑波大学システム情報工学研究科
-
山本 幹雄
筑波大学大学院システム情報工学研究科
-
乾 孝司
東京工業大学統合研究院
-
乾 孝司
奈良先端科学技術大学院大学情報科学研究科
-
吉田 光男
筑波大学大学院システム情報工学研究科
-
乾 孝司
筑波大学大学院システム情報工学研究科
-
山本 幹雄
沖テクノシステムズラボラトリ(株)
-
乾 孝司
奈良先端科学技術大学院大学情報科学研究科情報処理学専攻
-
吉田 光男
筑波大学大学院 システム情報工学研究科
-
山本 幹雄
豊橋技術科学大学情報工学系中川研究室
-
山本 幹雄
筑波大学システム情報系
関連論文
- トピック教師なしデータからのトピック依存評価表現モデルの獲得(「主観表現処理の最前線」シンポジウム)
- 社会課題とその解決に結びつく科学技術に関する有用知識の抽出
- 社会課題発見のための文書クラスタリングとクラスタ評価指標(情報分析・要約(テーマセッション1))
- スピンモデルによる単語の感情極性抽出(自然言語)
- 拡張固有表現タグ付きコーパスの構築(マイニング・知識獲得・固有表現)
- フレーズテーブル及び既存対訳辞書を用いた専門用語の訳語推定
- イベントの生起時間帯判定(分類, ブログ)
- 1.テキスト評価分析の技術とその応用(ユーザ作成のコンテンツに着目した嗜好・評判抽出, 利用者の好みをとらえ活かす-嗜好抽出技術の最前線-)
- フレーズテーブル及び既存対訳辞書を用いた専門用語の訳語推定(自然言語処理)
- 特許情報処理を指向したテストコレクションの構築 : 情報検索と自然言語処理の融合を目指して(NTCIR特別セッション)
- 特許情報処理を指向したテストコレクションの構築 : 情報検索と自然言語処理の融合を目指して(NTCIR特別セッション)
- 統計的機械翻訳におけるフレーズ対応最適化を利用したN-best翻訳候補のリランキング
- 確立・統計的言語モデル (特集 脳とことばとコンピュータ--脳の高次機能の解明に向けて)
- 確率・統計情報を用いた文法研究 (新・文法用語入門) -- (新しい文法研究)
- 日本語音声コ-パスの比較・選択の方法
- 6U-2 特許文に対するクロストリガーモデルを用いた統計的機械翻訳システム(自然言語処理,学生セッション,人工知能と認知科学)
- 特許情報を対象とした機械翻訳 : 共通基盤による評価タスクを目指して
- 特許情報を対象とした機械翻訳 : 共通基盤による評価タスクを目指して(文書分類・翻訳)
- 音声認識セミナー : 基礎からディクテーションまで
- コーパスから抽出された辞書を用いた表記誤り検出法
- 声帯振動の非線形効果パラメータのパタン化とその評価
- 声帯振動の非線形効果を考慮した合成音声とその評価
- 音声対話データベース構築の現状(音声対話システムの実力と課題)
- ブログ記事集合を用いたポストとコメントとの自動分離抽出手法の提案
- E-014 新聞記事からの社会課題に対する技術的対策情報の抽出(自然言語・音声・音楽,一般論文)
- 方言音声コーパスの設計・構築と分析
- 日本語方言音声コーパスの構築と分析
- Integer programming for a phrase alignment problem on statistical machine translation (21世紀の数理計画--最適化モデルとアルゴリズム--RIMS研究集会報告集)
- SIG-SLP/SIG-NL合同セッションここまでできるぞ音声/言語処理技術 : 音声編
- ここまでできるぞ音声/言語処理技術 : 音声編
- 日本語ディクテーションのための言語資源・ツールの整備
- 日本語ディクテーションのための言語資源・ツールの整備
- 日本語ディクテーション基本ソフトウェア(99年度版)
- 2000-NL-137-7 / 2000-SLP-31-2 日本語ディクテーション基本ソフトウェア(99年度版)の性能評価
- 2000-NL-137-7 / 2000-SLP-31-2 日本語ディクテーション基本ソフトウェア(99年度版)の性能評価
- 日本語ディクテーション基本ソフトウェア : 98年度版
- 日本語ディクテーション基本ソフトウェア(98年度版)の性能評価
- 日本語ディクテーション基本ソフトウェア(98年度版)の性能評価
- 日本語ディクテーション基本ソフトウェア(97年度版)
- 日本語ディクテーション基本ソフトウェア(97年度版)の性能評価
- テキスト中のイベントの生起時間帯判定(自然言語)
- 対訳特許文書からの専門用語対訳辞書半自動獲得におけるフレーズテーブルと既存対訳辞書の併用(機械翻訳・要約・評判分析)
- 3D-5 フレーズテーブルと要素合成法を用いた対訳特許文書からの専門用語対訳辞書生成(自然言語処理,一般セッション,人工知能と認知科学)
- 専門用語抽出における助詞情報の利用に関する一考察(情報抽出・ラベル付与)
- 大語彙日本語連続音声認識研究基盤の整備 : 汎用音素モデルの作成
- 大語彙日本語連続音声認識研究基盤の整備 : 学習・評価テキストコーパスの作成
- 大語彙日本語連続音声認識研究基盤の整備 : 評価用連続音声認識プログラムの開発
- 日本語音声コーパスの比較・選択の方法
- 日本音響学会新聞記事読み上げ音声コーパスからの評価用発話セットの作成
- キーワード抽出の整数計画問題としての定式化(機械学習・応用)
- 社会課題発見のための文書クラスタリングとクラスタ評価指標(情報分析・要約(テーマセッション1))
- 文書クラスタリングによるトピック抽出および課題発見
- 文書からの組織名抽出における辞書利用(情報抽出・ラベル付与)
- 2E07 大規模テキストマイニングによる医療分野の社会課題・技術トレンド抽出(メトリクス,一般講演,第22回年次学術大会)
- 共起語に基づいた階層型文書クラスタリング手法(セッション1:テキストマイニング)
- 共起語に基づいた階層型文書クラスタリング手法(セッション1:テキストマイニング)
- 日本語ディクテーション基本ソフトウェア(97年度版)の性能評価
- 隠れ変数モデルによる複数語表現の感情極性分類(自然言語)
- テキストを対象とした評価情報の分析に関する研究動向
- 極性反転に対応した評価表現モデル(言語の統計モデル)
- 極性反転に対応した評価表現モデル(言語の統計モデル)
- 混合ディリクレ分布を用いたトピックに基づく言語モデル(音声, 聴覚)
- 確率的LSAを用いた日本語同音異義語誤りの検出・訂正(自然言語)
- 確率的LSAに基づくngramモデルの変分ベイズ学習を利用した文脈適応化(音声,聴覚)
- 混合ディレクレ分布を用いた文脈のモデル化と言語モデルへの応用
- 確率的LSAに基づくngramモデルの変分ベイズ学習を利用した文脈適応化
- 確率的LSAに基づくngramモデルの変分ベイズ学習を利用した文脈適応化
- 確率的LSAに基づくngramモデルの変分ベイズ学習を利用した文脈適応化
- 生成文書モデルを用いた文書読み上げ音声認識(認識, 信頼度)
- GMMによる多言語音声系統樹の構成
- 文書確率を用いた文書読み上げ音声認識
- F_0モデルパラメータ自動抽出方法の改良(聴覚・音声・言語とその障害, 一般)
- 混合ガウス分布による多言語音声系統樹の構成(音声言語応用)(第6回音声言語シンポジウム)
- 混合ガウス分布による多言語音声系統樹の構成(音声言語応用)(第6回音声言語シンポジウム)
- 混合ガウス分布による多言語音声系統樹の構成(音声言語応用)(第6回音声言語シンポジウム)
- F_0モデル・パラメーターの自動決定方法についての考察(ポスターセッション)(第5回音声言語シンポジウム)
- F_0モデル・パラメーターの自動決定方法についての考察(第5回音声言語シンポジウム : ポスターセッション)
- F_0モデル・パラメーターの自動決定方法についての考察(第5回音声言語シンポジウム : ポスターセッション)
- F_0モデル・パラメーターの自動決定方法についての考察
- F_0モデルパラメータ自動決定の一方法
- 国内における音声データベースの現状 : 開発,管理及び音声研究への利用
- F_0モデルパラメータ自動抽出の一方法
- F_0モデルパラメータ自動抽出の一方法
- 多言語音声コーパスの構築と分析
- 韻律情報を考慮した音声要約の一方法
- 混合ディリクレ分布パラメータの階層ベイズモデルを用いたスムージング法(音声言語情報処理一般)(テーマ:音声対話システム、音声言語情報処理、一般)
- 英日統計的機械翻訳における語順優先探索デコーダ(自然言語)
- 教師情報を必要としないニュースページ群からのコンテンツ自動抽出
- 文献検索タスクを用いた音声対話データの収録と分析
- 文献検索をタスクとした音声対話コーパスの構築と分析
- 韻律情報を用いた発話文タイプ付与支援システム
- 表層情報を用いた統計的手法による発話文の自動分類
- 表層情報を用いた数量化理論第III類による発話文の分類と分析
- フレーズテーブル及び既存対訳辞書を用いた専門用語の訳語推定
- 評価表現と文脈一貫性を利用した教師データ自動獲得によるクレーム文検知(第3回集合知シンポジウム)
- メニュー入力を用いた日本語作文学習システム
- 日本語学習者向け日本語スペルチェッカ
- パテントファミリーを用いた専門用語訳語獲得における対訳文対非抽出部分およびフレーズテーブルの利用
- E-034 レビュー集合要約における特徴的評価視点セレクション(感情・評判,E分野:自然言語・音声・音楽)
- ブログページ集合からのポストおよびコメント自動分離抽出手法