FFTを用いた繰り返しパターン発見手法の提案(セッション5B : パターン抽出)
スポンサーリンク
概要
- 論文の詳細を見る
半構造テキスト中から自明でない情報を取り出す取り出す技術である,データマイニング,あるいはテキストマイニングは,拡大するWWW上の情報を取り扱う上で非常に重要である.その技術の一つとして,対象のデータに繰り返し出現するパターンを発見する問題がある.発見されたパターンを用いることで,そのデータを加工する,あるいはデータから新たな情報を抽出する事が可能となる.繰り返しパターンを発見する方法として,対象となるデータをそれ自身のコピーと位置をずらして重ね,一致部分を見つける素朴な方法が考えられる.しかしこの方法は,テキストのサイズnに対して計算量が0(n^2)となり,大きなデータに対しては現実的でない.本研究では,我々が提唱しているFFTを用いた効率的な近似文字列照合アルゴリズムを適用し,O(nlog n)の計算量で繰り返しパターンを発見する手法について提案する.
- 2003-07-16
著者
関連論文
- 概念束によるヒヤリハット報告書の分析システム (言語理解とコミュニケーション・第1回集合知シンポジウム--言語処理が紡ぎ出す未来)
- Webシラバス統合による教育情報ライブラリ構築
- キーワード連動広告でのキーワード発見手法の提案(夏のデータベースワークショップ2007(データ工学,一般))
- キーワード連動広告でのキーワード発見手法の提案(メタデータ,夏のデータベースワークショップ2007(データ工学,一般))
- プレーリストからの曲目やアーティストの相互関連抽出
- WebDBにおける出力レコードのメタデータ自動抽出(セッション2:Web応用)
- D_040 WebDBをコンポーネントとするセマンティック・メタ検索の提案(D分野:データベース)
- マッシュアップを簡単に実現するメタCGIとそのアーキテクチャ(セッション2:Web応用)
- FFTを用いた繰り返しパターン発見手法の提案(セッション5B : パターン抽出)
- Webシラバス情報収集エージェントの試作(ソフトウェアエージェントとその応用論文)
- 3次元分散共有仮想空間を媒介とする3次元マルチメディアデータの交換・流通環境
- 統合検索システムDAISEnでの検索サイトフォーム分析(セッション9B : 情報統合)
- 統合検索システムDAISEnでの検索サイトフォーム分析(情報統合)(「夏のデータベースワークショップ(DBWS2003)」一般)
- ウェブデータウエアハウスと協働する業務報告書オーサリングシステム
- D-012 XDES : 多様な構造と流動的変化に対応できるデータエントリーシステムの構築(D分野:データベース)
- 英和辞典を用いた単語階層構造の動的構築
- マッシュアップを簡単に実現するメタCGIとそのアーキテクチャ(セッション2:Web応用)
- 英和辞典を用いた単語階層構造の動的構築 (「Web Intelligence」および一般発表)
- 平成18年度における研究開発 電子図書館システムの研究開発
- WebDBのQuery Formにおけるメタデータ自動抽出
- Web上の高等教育用コンテンツの自動収集と抽出--シラバスの自動抽出
- 学会講演データにおける著者やキーワードの関連分析システム (テーマ:特集「ウェブデータの知的処理」および一般)
- プレーリストからの曲目やアーティストの相互関連抽出
- 文書群からの概念グラフの構成(検索とキーワード・概念抽出)
- 文書群からの概念グラフの構成(検索とキーワード・概念抽出)
- Web データベースにおける入力フォーム情報の自動抽出
- 文書群の局所性と大域性の差を利用したキーワード粒度評価(重要語抽出・検索・文書分類)
- 文書群の局所性と大域性の差を利用したキーワード粒度評価(重要語抽出・検索・文書分類)
- 教員データに対する多面的検索システム(eラーニング2, 夏のデータベースワークショップDBWS2005)
- 教員データに対する多面的検索システム(eラーニング2, 夏のデータベースワークショップ2005)
- ウェブデータウエアハウスと協働する業務報告書オーサリングシステム
- FFTを用いた近似文字列照合のスコア計算のための最適な写像
- ウェブデータウエアハウスと協働する業務報告書オーサリングシステム
- 概念束によるヒヤリハット報告書の分析システム(第1回集合知シンポジウム〜言語処理が紡ぎ出す未来〜)
- 不一致を許す文字列照合のためのFFTを用いた確率的アルゴリズムの精度評価
- 2K1 大学評価の報告書作成支援システムと大学情報のデータウェアハウスについて((課題研究2)ICTを活用した教育支援環境,教育の原点に光を当てる〜乱流の中の本流を見出す〜)
- WebDBにおける出力レコードのメタデータ自動抽出(セッション2:Web応用)
- 単語の出現頻度に着目した病院評判情報の分析(抽出(1))
- 単語の出現頻度に着目した病院評判情報の分析(抽出(1))
- Webデータベースにおける入力フォーム情報の自動抽出(セッション4: メタデータとWebデータベース応用)
- Webデータベースにおける入力フォーム情報の自動抽出(セッション4: メタデータとWebデータベース応用)
- 短期・中期移動平均線を用いた株価の解析
- 教員データにおける高頻度語(語の統計量とその応用)
- 教員連想検索システム(セッション2:文書変換・表示)
- 部分文字列増幅法による共通パターン発見アルゴリズム
- 交代数を用いた多言語Webテキストからの共通部分特定とラッパーの生成法(データマイニング)
- D-039 検索サイトにおける入力項目と検索結果のフィールド名の対応調査(D.データベース)
- テンプレート発見問題の定式化と部分文字列増幅法を用いたアルゴリズム(文字列アルゴリズム)
- 部分文字列増幅法による共通パタン発見アルゴリズム(パターン認識)
- 半構造化文書に対する木構造と文字列を組合せたラッパーの自動生成法(コーパス構築)(セマンティックウェブと自然言語処理その他一般)
- 文字列の頻度分布による共通パタン発見(パタン発見)(セマンティックウェブと自然言語処理その他一般)
- 文字列の頻度分布による共通パタン発見
- 九州大学自己点検・評価関連情報システム(セッション2:XML応用システム)
- FETを用いた繰り返しパターン発見手法の提案(パターン抽出)(「夏のデータベースワークショップ(DBWS2003)」一般)
- SoftPathを用いた同系統単語抽出方式
- N-32 自動収集したWebシラバスデータの分析と考察(教育支援システム(2),N.教育・人文科学)
- D-5 検索サイトのための集合演算子の自動推定(Web検索(1),D.データベース)
- n-gram交代数を用いた半構造化データの不要部分削除
- n-gram交代数を用いた半構造化データの不要部分削除
- Webグラフの構造解析 (「Webシステムにおける情報獲得支援技術」)
- 3次元分散共有仮想空間を媒介とする3次元マルチメディアデータの交換・流通環境
- 検索サイトの統合システム
- 初等幾何推論の多面的表示方式
- ZKネットワーク雑記帳
- $\lambda_C$計算と$\lambda_P$計算との対応(計算理論とその応用)
- 近似文字列照合のための効率的なアルゴリズム
- 文書群からの概念グラフの構成
- 観光イベントについての「といえば検索」の提案(「コミュニティ上での知識の共有・再利用」及び一般)
- D-037 形式概念を用いた倒産情報の分析システム(D分野:データベース,一般論文)
- 概念の活性値の伝搬・争奪による並列意味解析
- 並列構文解析アルゴリズムの密結合マシン上への実装と評価
- 概念の活性と概念間の結合の強さを用いた並列意味解析
- priority-controlを用いた並列談話処理モデル
- リポジトリのアクセスログ解析
- 複雑な知識モデルを利用した人間の学習プロセスシミュレーションの検討
- クロス集計による文献ファセット検索システムの提案
- 手掛り語に着目した倒産情報の分析手法の提案(応用,自然言語処理)
- 手掛り語に着目した倒産情報の分析手法の提案(応用,自然言語処理)
- 観光ブログからの地名抽出と曖昧性解消
- クロス集計による文献ファセット検索システムの提案 (情報処理学会第104回情報基礎とアクセス技術研究会(IFAT)発表論文)
- Crowdsourcing Systemを用いた略語の推定手法の提案 (音声)
- 手掛語による論文概要中の問題文の特徴付け (言語理解とコミュニケーション)
- Crowdsourcing Systemを用いた略語の推定手法の提案(言語モデル・辞書,第13回音声言語シンポジウム)
- Crowdsourcing Systemを用いた略語の推定手法の提案(言語モデル・辞書,第13回音声言語シンポジウム)
- 調べることで学ぶ : 学習理論と実践(インタフェース技術と学習支援システム/一般)
- SNSと検索エンジンを結合したコミュニティ型探索プラットフォームの提案(「コンテキストを意識した知識の利用」及び一般)
- 集合知に基づくオンライン小説のランキング手法
- Crowdsourcing System を用いた略語の推定手法の提案
- 調べることで学ぶ : 学習理論と実践
- Crowdsourcing System を用いた略語の推定手法の提案
- SNSと検索エンジンを結合したコミュニティ型探索プラットフォームの提案
- 集合知に基づくオンライン小説のランキング手法(情報検出と提示,ビッグデータとソーシャルコンピューティング,及び一般)
- 動詞の難易度と多義性について : 日本語WordNet上のSynset に基づく分析(基礎・抽出,第3回テキストマイニング・シンポジウム)