情報量と頻度に基づく非同期かつ有用な系列パターンの高速抽出
スポンサーリンク
概要
- 論文の詳細を見る
In this paper, we propose new methods and gave a system, called IFMAP , for extracting interesting patterns from a long sequential data based on frequency and self-information, and experimentally evaluate the proposed methods in the application of handling a newspaper article corpus.Sequential data mining methods based on frequency have intensively beenstudied so far. These methods, however, are not effective nor valuable for some applications where almost all high-frequent patterns should beregarded just as meaningless noisy patterns. An information-gain concept is quite important in order to restrain these noisy patterns, and was already studied for integrating it with a frequency criteria. Yang et.~al. gave a sequential mining system InfoMiner which can find periodic synchronous patterns being interesting and well-balanced from the both view-points of frequency and self-information. In this paper, we refine and extend the InfoMiner technologies in the following points: firstly, our method can handle ordinary, i.e., asynchronous and non-periodic patterns by using a sliding window mechanism, whereas InfoMiner cannot; secondly we give several combination measures for choosing valuable patterns based on frequency and self-information, while InfoMiner has just one measure which, we show in this paper, is not appropriate nor effective for handling newspaper article corpora; thirdly, we proposed a new unified method for pruning the search space of sequential data mining, which can uniformally be applied to any combination measures proposed here. We conduct experiments for evaluating the effectiveness and efficiency of the proposed method with respect to the runtime and the amount of excluding noisy patterns.
著者
-
岩沼 宏治
山梨大学大学院コンピュータメディア工学専攻
-
大塚 尚貴
山梨大学大学院医学工学総合教育部修士課程
-
村田 順平
山梨大学大学院 医学工学総合教育部 コンピュータ・メディア工学専攻
-
岩沼 宏治
山梨大学大学院 医学工学総合研究部
-
大塚 尚貴
山梨大学大学院 医学工学総合教育部 コンピュータ・メディア工学専攻
関連論文
- SMT:個別理論を取り扱うSAT技術(最近のSAT技術の発展)
- 分散並列型SATソルバにおける探索空間の分割手法の提案
- 検索隠し味の半自動生成を目的とした訓練データの精製(「自動推論: 帰納, 演繹, モデル検査/生成, 学習, 発見, 仮説推論, 論理プログラミング, プランニングetc.」及び一般)
- 系列パターンマイニングにおけるアイテム集合間の関連強度による頻出部分系列の絞込み(「自動推論: 帰納, 演繹, モデル検査/生成, 学習, 発見, 仮説推論, 論理プログラミング, プランニングetc.」及び一般)
- SOLにおけるタブ口証明反転法とその応用(「自動推論:帰納,演繹,モデル検査/生成,学習,発見,仮説推論、論理プログラム,プランニングetc.」及び一般)
- 補題再利用によるSATプランニングの高速化(「自動推論:帰納,演繹,モデル検査/生成,学習,発見,仮説推論,論理プログラム,プランニングetc.」及び一般)(自動推論)
- WEB検索高度化のためのアンサンブル学習に基づく訓練事例の精錬(「Webインテリジェンス」及び一般)
- Webアクセスログに対する系列データマイニング : ページ滞在時間系列の解析(「さまざまな分野の形式的検証最前線」及びAI一般)
- 極大系列抽出を目的とする系列包含検査の高速化アルゴリズム(「さまざまな分野の形式的検証最前線」及びAI一般)
- LF-012 単一の長大なデータ系列上の系列パターンの出現尺度とその逆単調性(F. 人工知能)
- 専門検索エンジンの半自動生成を目的とした類似度に基づくWEB学習データの精製(一般,コミュニケーションとAI及び一般)
- 情報量と頻度に基づく非同期かつ有用な系列パターンの高速抽出
- F-043 精度保証付きオンライン型高速近似系列マイニング(人工知能・ゲーム,一般論文)
- 時間的差分データの監視を目的とした携帯端末画面への表示システムに関する研究
- マルチコア環境に向け並列SATソルバの開発(「自動化:推論,発見,学習,データマイニング」及び一般)
- F-047 イベント時系列マイニングを目的とする新聞記事からの時系列情報に基づく単語抽出(人工知能・ゲーム,一般論文)
- 階層パターンの抽出を目指した系列データマイニング(学生セッション,大学のAI・企業のAI)
- 階層パターンの抽出を目指した系列データマイニング(学生セッション,大学のAI・企業のAI)
- F-021 情報量と頻度に基づく系列データマイニングにおける非同期パターンの抽出と効率化(人工知能・ゲーム,一般論文)
- Nelson-Oppen結合手続きの逆伴意法に基づく改良
- エージェントのルール学習におけるGAとGPの特性比較と融合化による性能向上
- 専門語彙テンプレートの自動生成とWebページの自動統合(WWW,テキスト情報の要約と掲示に関わる自然言語処理シンポジウム及び一般)
- WEB文書の頻出語情報を利用した解答検索システムの構築(一般,コミュニケーションとAI及び一般)
- 近年の一階論理定理証明プログラムの実際
- 共通記号を持つ背景理論の決定手続きの結合法とその効率化について
- LF-002 大規模データ系列中に頻出する部分系列のオンライン抽出アルゴリズム(F分野:人工知能・ゲーム)
- 老若男女だれでも簡単に使えるHTML文書ラッパ自動合成システム(「21世紀の知識情報科学に向けて」,及び一般)
- リンク元コンテキストを考慮するハイパーリンク重要箇所同定法
- 多値論理を用いた生体ネットワークシステムのモデル検査(2012年5月28日版)
- テキスト系列マイニングにおける有用性尺度について(系列パターンマイニングの最近の動向)
- 多値論理を用いた生体ネットワークシステムのモデル検査 : 2012年5月28日版(一般,機械学習によるバイオデータマインニング,一般)