共起語に基づいた階層型文書クラスタリング手法(セッション1:テキストマイニング)
スポンサーリンク
概要
- 論文の詳細を見る
本研究は,クラスタ毎の重要な数文書のみを効率よく提示することを目的とし,文書-単語マトリクスの代わりに単語-文書行列を入力として,まず単語をクラスタリングし,それらの単語を含む文書を間接的にクラスタリングする文書クラスタリング手法を提案する,提案手法は文書クラスタリングの際に,入力行列に用いた単語のtf・idf値に基づいたスコアリングにより各文書クラスタに所属する文書をランキングし,その上位の文書のみを出力とすることで,クラスタの特徴を表す文書を同定できる利点がある.提案手法によって得られた各クラスタの上位ランクの文書は,他クラスタの文書とは排他的な特徴を持ちつつ,高い精度でクラスタリングされていることが確認された.
- 一般社団法人情報処理学会の論文
- 2007-05-31
著者
-
村上 浩司
奈良先端科学技術大学院大学情報科学研究科
-
石川 正道
東京工業大学
-
石川 正道
東工大
-
橋本 泰一
東京工業大学統合研究院
-
村上 浩司
奈良先端科学技術大学院大
-
乾 孝司
東京工業大学統合研究院
-
橋本 泰一
東京工業大学
-
乾 孝司
奈良先端科学技術大学院大学情報科学研究科
-
乾 孝司
筑波大学大学院システム情報工学研究科
-
内海 和夫
東京工業大学統合研究院
-
村上 浩司
東京工業大学統合研究院
-
乾 孝司
奈良先端科学技術大学院大学情報科学研究科情報処理学専攻
-
石川 正道
東京工大
関連論文
- テキスト情報分析のための判断情報アノテーション(自然言語処理,意味解析,情報爆発論文)
- 社会課題とその解決に結びつく科学技術に関する有用知識の抽出
- 社会課題発見のための文書クラスタリングとクラスタ評価指標(情報分析・要約(テーマセッション1))
- スピンモデルによる単語の感情極性抽出(自然言語)
- 品詞間接続制約のLR構文解析表への組み込みの局所性の解消
- 論文と特許を対象にした技術動向分析 第7回,第8回NTCIRワークショップ 特許マイニングタスク
- 拡張固有表現タグ付きコーパスの構築(マイニング・知識獲得・固有表現)
- 複数文書から抽出した言明間の意味的関係の整理と関係付与(コーパス)
- 事象間関係知識の整備と類似・対立認識への応用(単語・事象・オントロジー)
- E-053 言論マップ生成のための事象間類似・対立関係の認識(自然言語・音声・音楽,一般論文)
- E-040 含意・矛盾認識のための事象間関係知識の整備(自然言語・音声・音楽,一般論文)
- 言論マップ生成課題 : 言説間の類似・対立の構造を捉えるために(情報分析・要約(テーマセッション1))
- 第34回結晶成長討論会開催報告(学会活動報告)
- 二酸化炭素臨界流体中の動的ピストン効果研究のためのフライト実験装置の開発
- テキスト情報分析のための判断情報アノテーション
- E-043 裁判員支援に向けた量刑推定に適した判例タグの構築(自然言語・音声・音楽,一般論文)
- E-042 裁判員支援に向けた新聞記事を対象とした刑事事件の性質に基づく量刑推定手法の提案(自然言語・音声・音楽,一般論文)
- E-041 裁判員支援に向けた類似判例に基づく量刑可視化システムの提案(自然言語・音声・音楽,一般論文)
- イベントの生起時間帯判定(分類, ブログ)
- 1.テキスト評価分析の技術とその応用(ユーザ作成のコンテンツに着目した嗜好・評判抽出, 利用者の好みをとらえ活かす-嗜好抽出技術の最前線-)
- 特許情報処理を指向したテストコレクションの構築 : 情報検索と自然言語処理の融合を目指して(NTCIR特別セッション)
- 特許情報処理を指向したテストコレクションの構築 : 情報検索と自然言語処理の融合を目指して(NTCIR特別セッション)
- 二酸化炭素臨界流体中の動的ピストン効果研究のためのフライト実験装置の開発
- 臨界点近傍流体中の「ピストン効果」素過程の直接観察
- 文間の弱い対立関係の認識
- ブログ記事集合を用いたポストとコメントとの自動分離抽出手法の提案
- 言論マップ生成課題 : 言説間の類似・対立の構造を捉えるために(情報分析・要約(テーマセッション1))
- 文間関係認識のための局所構造アライメント
- 文間関係認識のための局所構造アライメント
- 文間関係認識のための局所構造アライメント
- 文間関係認識のための局所構造アライメント
- 社会課題発見のための文書クラスタリングとクラスタ評価指標
- 接尾辞情報を利用した文書からの組織名抽出
- E-014 新聞記事からの社会課題に対する技術的対策情報の抽出(自然言語・音声・音楽,一般論文)
- 関係データベースを用いた構文木付きコーパス検索手法
- テキスト構文構造類似度を用いた類似文検索手法(セッション3: メタデータとオントロジ応用)
- テキスト構文構造類似度を用いた類似文検索手法(セッション3: メタデータとオントロジ応用)
- 大規模日本語文法の開発
- 日英言語横断情報検索のための翻訳知識の獲得
- 単語の共起情報を利用した文法主導の係り受け解析(基盤・要素技術)(セマンティックウェブと自然言語処理その他一般)
- システム主導型コーパス作成インターフェースとその評価(抽出,コーパス)
- 決定リストにおける規則の適用順序に関する考察
- 自然言語解析のためのMSLRパーザ・ツールキット
- 2000-NL-138-12 統計的手法に基づく形容詞または形容動詞の修飾先の決定
- NLC2000-21 統計的手法に基づく形容詞または形容動詞の修飾先の決定
- 構造付きコーパスからの統語的知識の自動獲得とその精密化
- テキスト中のイベントの生起時間帯判定(自然言語)
- 専門用語抽出における助詞情報の利用に関する一考察(情報抽出・ラベル付与)
- 2F08 東京工業大学統合研究院における大学シンクタンク機能の創設と課題((ホットイシュー) 次の学際・融合研究に向けて (5), 第20回年次学術大会講演要旨集II)
- キーワード抽出の整数計画問題としての定式化(機械学習・応用)
- 社会課題発見のための文書クラスタリングとクラスタ評価指標(情報分析・要約(テーマセッション1))
- 文書クラスタリングによるトピック抽出および課題発見
- 文書からの組織名抽出における辞書利用(情報抽出・ラベル付与)
- 2E07 大規模テキストマイニングによる医療分野の社会課題・技術トレンド抽出(メトリクス,一般講演,第22回年次学術大会)
- 共起語に基づいた階層型文書クラスタリング手法(セッション1:テキストマイニング)
- 共起語に基づいた階層型文書クラスタリング手法(セッション1:テキストマイニング)
- 微小重力下での結晶成長(第13回結晶成長国際会議(ICCG-13/ICVGE-11))
- 隠れ変数モデルによる複数語表現の感情極性分類(自然言語)
- テキストを対象とした評価情報の分析に関する研究動向
- 極性反転に対応した評価表現モデル(言語の統計モデル)
- 極性反転に対応した評価表現モデル(言語の統計モデル)
- 文書内に現れる因果関係の出現特性調査(解析, QA, 言語調査)
- 文書内に現れる因果関係の出現特性調査(解析, QA, 言語調査)
- スピンモデルによる単語の感情極性判定(シソーラス・辞書)
- 文書内に現れる因果関係の出現特性調査
- 接続標識「ため」に基づく文書集合からの因果関係知識の自動獲得(自然言語)
- 接続助詞「ため」を含む複文から因果関係知識を獲得する
- 接続助詞「ため」を含む複文から因果関係知識を獲得する
- 複数のパーザを利用した統計的部分係り受け解析
- 語釈文を利用した「p/n 辞書」の作成 (テーマ なぜインタラクションでなければならないか?)
- 統計的部分係り受け解析における係り受け確率の利用法 : コーパス中の構文タグ誤りの検出
- 3. 微小重力下低温プラズマにおける基礎物理化学(微小重力環境を利用したプラズマプロセスへの誘い)
- 宇宙環境における基礎化学の研究シナリオ
- ゆらぎと微小重力
- 分子プログラミングへの物質科学からの期待(期待される結晶成長)
- 5. 微小重力下プラズマCVDによるダイヤモンド生成(微小重力環境を利用したプラズマプロセスへの誘い)
- 宇宙ステーションと化学
- 接続標識に基づく文書集合からの因果関係知識獲得(知識情報インフラ)(人工知能分野における博士論文)
- 文間関係認識に基づく賛成・反対意見の俯瞰
- 研究履歴生成のための論文メタデータを用いたマージン最大化クラスタリング(プライバシー,アーバンセンシングによる情報創出とその応用,及び一般)
- 評価表現と文脈一貫性を利用した教師データ自動獲得によるクレーム文検知 (言語理解とコミュニケーション)
- コロイド結晶成長の謎を解き明かせ (特集 国際宇宙ステーション時代の結晶成長(その2))
- 評価表現と文脈一貫性を利用した教師データ自動獲得によるクレーム文検知(第3回集合知シンポジウム)
- コロイド結晶成長の謎を解き明かせ(国際宇宙ステーション時代の結晶成長その2)
- E-034 レビュー集合要約における特徴的評価視点セレクション(感情・評判,E分野:自然言語・音声・音楽)
- ブログページ集合からのポストおよびコメント自動分離抽出手法