マイクロクラスタリングを用いた単語分類とトピック検知
スポンサーリンク
概要
- 論文の詳細を見る
本研究は,Twitter の投稿内容に,データ研磨技術を用いたマイクロクラスタリングを利用することで,単語の共起関係に基づいたクラスタによる概念を構築する.そして興味対象となるツイートをできる限り多く被覆するような少数のクラスタを,ナップサック制約付き最大被覆問題を用いて抽出することで,投稿内容の要約を行う.抽出されたクラスタは,ある特定のツイート群の文章を特徴付ける単語のグループとして捉えることができ,それらを概念として扱う事で,単語を独立に扱った場合に比べて,すぐれた要約になっていることを示す.計算実験では,テレビアニメーション番組「宇宙兄弟」に関する投稿内容を対象にして提案手法を適用した.
- 2013-10-30
著者
-
宇野 毅明
国立情報学研究所情報学プリンシプル研究系
-
羽室 行信
関西学院大学大学院経営戦略研究科
-
宇野 毅明
国立情報学研
-
中原 孝信
関西大学データマイニング応用研究センター
-
羽室 行信
関西学院大学
関連論文
- 中古車オークションデータを用いた自動車リースの査定条件に関する分析(データ解析コンペティション:オークション・データの解析)
- 弦グラフおよび弦二部グラフのクラスにおけるマッチングの数え上げ
- 木の均一分割問題
- 最短路高速検索のための階層メッシュ疎化法
- 2-E-5 最短路高速検索のための階層メッシュ疎化法(組合せ最適化と応用(3))
- Enumeration of Perfect Sequences of Chordal Graph (Acceleration and Visualization of Computation for Enumeration Problems)
- 2-E-17 Enumeration of Perfect Sequences of Chordal Graph
- コーダルグラフの完全列の列挙
- 距離遺伝的グラフの木表現とその応用
- コーダルグラフの独立点集合の数えあげ問題
- 木構造の動的ネットワーク上の施設配置問題に対するO(nlog^2n)時間アルゴリズム
- 負の重みに対応した高速頻出集合発見プログラムの開発(人工知能,データマイニング)
- 統合化顕在パターン判別モデルによるWebアクセスログデータの分析(データ解析コンペティション:アクセスログデータ解析)
- 1-E-4 Web版訪問介護スケジュール作成支援システム(スケジューリング)
- 2-A-3 周辺文脈アプローチを利用した新聞記事内容と株価に関する分析(金融(1))
- グラフクラスと部分グラフ同型性
- 計算幾何学的な手法を用いた高速相同性計算手法
- 支配集合数え上げ問題とグラフクラス
- 電力取り引きにおける約定量決定問題の高速解法
- 電力取り引きにおける約定量決定問題の高速解法(組合せ最適化(5))
- パターンマイニングの新しい落としどころ : クラスタリングを用いたパターンマイニング(コンピュータビジョンとパターン認識のための機械学習と最適化,一般)
- パターンマイニングの新しい落としどころ : クラスタリングを用いたパターンマイニング(コンピュータビジョンとパターン認識のための機械学習と最適化,一般)
- ディジタルハーフトーニングへの応用に向けての魔方陣の一般化(2)
- ディジタルハーフトーニングへの応用に向けての魔方陣の一般化(1)
- ディジタルハーフトーニングへの応用に向けての魔方陣の一般化(2)
- ディジタルハーフトーニングへの応用に向けての魔方陣の一般化(1)
- 極小出現区間を用いたエピソードマイニングの高速化(データベース・アルゴリズム)
- 極小出現区間を用いたエピソードマイニングの高速化(データベース・アルゴリズム)
- データインテンシブコンピューティング : その2 頻出アイテム集合発見アルゴリズム(知能コンピューティングとその周辺〔第2回〕)
- ワイルドカードを許した極大モチーフの列挙アルゴリズム
- 大規模木構造データからの頻出無順序木パターン発見アルゴリズム (計算機科学基礎理論の新展開)
- 大規模木構造データからの頻出部分構造パターン発見アルゴリズム(文字列アルゴリズム)
- 半構造データからの効率よい無順序木パターン発見手法(インターネット環境でのデータ工学とディペンダビィリティ及び一般)
- 半構造データからの効率よい無順序木パターン発見手法(インターネット環境でのデータ工学とディペンダビィリティ及び一般)
- 半構造データからの効率よい無順序木パターン発見手法
- 大規模木構造データからの高速な部分構造発見(「21世紀の知識情報科学に向けて」,及び一般)
- 2部クリークを用いたclosed item setの効率的な列挙(「21世紀の知識情報科学に向けて」,及び一般)
- 双対化を用いた新しい極大頻出アイテム集合の計算(「21世紀の知識情報科学に向けて」,及び一般)
- 中小規模スタッフスケジューリング問題における調整の容易なスケジュール作成に関する研究
- 色付き木の列挙
- コーダルサンドイッチの列挙, ランダム生成, 数え上げについて (理論計算機科学の深化 : 新たな計算世界観を求めて)
- 2-F-5 多目的最適化への列挙アルゴリズム理論からのアプローチ(数理計画(1))
- 無順序根無し木を列挙するシンプルなアルゴリズム
- 無順序木を列挙するシンプルなアルゴリズム
- 平面三角分割グラフを列挙するアルゴリズムの改良
- UNO は一人でも難しい (計算機科学とアルゴリズムの数理的基礎とその応用)
- DK-2-4 大規模データに対する高速類似性解析手法の構築(DK-2.JSTさきがけセッション:人と社会のための情報処理,ソサイエティ企画)
- DK-2-4 大規模データに対する高速類似性解析手法の構築(DK-2.JSTさきがけセッション:人と社会のための情報処理,ソサイエティ特別企画,ソサイエティ企画)
- 擬似クリークを列挙する多項式時間遅延アルゴリズム
- RF-006 負の重みに対応した高速頻出集合発見プログラムの開発(人工知能・ゲーム,査読付き論文)
- Genome Homology Visualization by Short Similar Substring Enumeration (Acceleration and Visualization of Computation for Enumeration Problems)
- 2-E-18 ハミング距離の短い文字列ペア列挙アルゴリズムと解析ツール(組合せ論)
- 1-A-4 修正を前提としたExcelベースのスタッフスケジューリングツールの開発(つくばOR学生発表(5))
- スタッフスケジューリングにおける修正しやすさを考慮した解の分析 (21世紀の数理計画 : 最適化モデルとアルゴリズム)
- 1-B-8 スタッフスケジューリングにおける修正しやすさを知る為の実験とその考察(スケジューリング(2))
- 1-B-9 部品の取り外しを考慮した仕掛り在庫と受注の高速マッチング(スケジューリング(2))
- 木構造動的ネットワークにおける複数個の施設配置問題(組合せ最適化(5))
- RA-003 修正作業を効果的に支援するExcelベースのスタッフスケジューリングツールの開発(モデル・アルゴリズム・プログラミング,査読付き論文)
- ゲノム情報学における高速データ処理
- 列挙アルゴリズム(新・ORの図解,学会創立50周年記念号)
- 列挙を用いたモデリングの進展(モデリング-さまざまな分野,さまざまな視点から-)
- 近年の列挙技術の進展 : 計画立案と解法(ここまで使える数理計画法)
- DS-1-16 弦グラフおよびその部分クラスの列挙(DS-1.COMP-NHC学生シンポジウム,シンポジウム)
- 頻出パターンの高速列挙
- テキストマイニングを用いた株式銘柄センチメントの測定とポートフォリオの構築 : マーケット・ニュートラルアプローチ(事象モデリング,第1回テキストマイニング・シンポジウム)
- 飽和系列パターンの多項式時間列挙アルゴリズム
- 飽和系列パターンの多項式時間列挙アルゴリズム
- 1-G-3 極性付き評価表現からのクラスタ抽出と株価収益率予測への応用(ポートフォリオ)
- 離散構造データのデータマイニングツール開発とその応用(離散構造処理系-知能情報処理を支えるアルゴリズムの技法)
- 高速クリーク・密部分グラフマイニングアルゴリズム(離散構造処理系-知能情報処理を支えるアルゴリズムの技法)
- D-1-6 マッチングアルゴリズムを用いた匿名化手法の提案(D-1.コンピュテーション,一般セッション)
- 最適化から見たデータマイニング(活躍する機械学習)
- DS-1-5 ひとりにしてくれ数(DS-1.COMP学生シンポジウム,シンポジウムセッション)
- 証券アナリストの格下げ記事により価値を失う企業の特徴分析
- 1-F-3 株式格付け変更イベントに対する市場反応の日米比較 : 遺伝的アルゴリズムを用いた投資戦略の最適化(ポートフォリオ)
- 高速クリーク・密部分グラフマイニングアルゴリズム
- 最適化から見たデータマイニング
- 最小完全ハッシュ関数を用いたグリッドグラフ上の効率的なパス数え上げ
- 超辺の縮約を許した非巡回部分超グラフの効率よい列挙
- 木に含まれる限定サイズ部分木の列挙
- 運用コストを重視した最適化 : 小規模な事業所で運用可能なシステムを考える(論文・研究レポート)
- 隣の芝は青くない
- 基単調図形に分割可能な最大重み領域を得る基線の配置問題
- 長さ極大な群れパターンを軌跡集合から効率良く発見するアルゴリズム
- 大規模データに対する情報損失の少ないk-匿名化手法
- 大規模データに対する情報損失の少ないk-匿名化手法
- 単位正方形上の一意被覆問題に対する近似アルゴリズム
- 2-A-7 運用コストを重視したORに向けて(特別セッション スモールビジネスOR(1))
- マイクロクラスタリングを用いた単語分類とトピック検知
- テレビ番組視聴時におけるTwitter投稿からのトピック検知(声・質的データを経営・マーケティングに活かす)
- 1-F-6 オリンピック期間中のTwitterデータによるセンチメント分析(確率モデル(2))
- 1-F-5 大規模ニュース記事を用いた株価収益率の予測(確率モデル(2))
- 1-B-2 最適匿名化手法(離散最適化(1))
- 魅力的な研究提案を目指して
- DS-1-11 Free Flood Filling Gameの計算複雑性について(DS-1.COMP学生シンポジウム,シンポジウムセッション)
- K-縮退グラフに含まれる誘導木の列挙
- 長さ極大な群れパターンを軌跡集合から効率良く発見するアルゴリズム(一般)
- 大規模データに対する情報損失の少ないk-匿名化手法(匿名化・回帰分析・問合せ,ビッグデータを対象とした管理・情報検索・知識獲得及び一般)
- いや,実のところはねぇ(異分野コミュニケーションによる最適化の広がり)
- 木に含まれる限定サイズ部分木の列挙