分節木と共有文字列で表現される符号上での効率良い圧縮照合アルゴリズム(アルゴリズム理論,情報検索,<特集>情報爆発論文)
スポンサーリンク
概要
- 論文の詳細を見る
本論文では,VF符号で圧縮されたテキスト上でのパターン照合アルゴリズムについて論じる.ここで扱うVF符号とは,テキストを分節木によって可変長の部分文字列に分割し,固定長の符号語を割り当てる形式の符号化手法である.圧縮照合問題の形式的枠組みであるCollage systemを用いれば,VF符号上でKMP型の汎用的なアルゴリズムを組織的に導出でき,O(m^2+D)時間・領域の前処理の後, O(n+R)時間で圧縮テキストを走査できる.ここで, m, n, R, Dはそれぞれ,パターン長,テキスト長,パターンの出現回数,圧縮辞書のサイズである.しかし,この圧縮辞書のサイズは,各符号語に対する文字列の長さの総和に等しい.そこで,分節木上で共有される文字列の構造を利用し,より効率良く前処理を行うアルゴリズムを提案する.提案アルゴリズムは,大きさ|T|の分節木T上の各ラベル文字列が,長さ|S|である文字列Sの一部分として表現されている場合,O(m^2+|S|+|T|)時間・領域で前処理を行うことができる.ここで, |S|+|T|はもとのDよりも非常に小さいものである.本結果は,Collage system上で示されており,同種の構造の圧縮法であればVF符号に限らず適用できる.
- 2010-06-01
著者
関連論文
- 分節木と共有文字列で表現される符号上での効率良い圧縮照合アルゴリズム(アルゴリズム理論,情報検索,情報爆発論文)
- VF符号上における圧縮照合アルゴリズム
- JPEG画像に対する2次元パターンマッチングアルゴリズム(一般セッション1,移動カメラ画像処理におけるパターン認識とメディア理解)
- 分節木と共有文字列で表現される符号上での効率良い圧縮照合アルゴリズム
- D-1-8 部分文字列の出現頻度に基づくVF符号(D-1.コンピュテーション,一般セッション)
- VF符号と算術符号の組合せ手法による圧縮性能の向上について
- VF符号と算術符号の組合せ手法による圧縮性能の向上について
- VF符号と算術符号の組合せ手法による圧縮性能の向上について
- D-28 文字列照合技術に基づくXMLデータ処理(XMLデータ処理,D.データベース)
- 2G-2 圧縮テキストに対する文字列照合のための統一的枠組み
- 2G-1 データ圧縮による文字列照合の高速化
- ウェブ閲覧における効率的なキーワード抽出とその利用
- 4ZK-7 ブラウジング支援のための一覧性の高いキーワードリストの抽出(情報爆発時代におけるテキストデータ処理,学生セッション,「情報爆発」時代に向けた新しいIT基盤技術)
- プロパティ接尾辞木のオフライン線形時間構築アルゴリズム(構造化文書・XML,データ工学論文)
- D-020 プロパティ接尾辞木 : メタデータ付き系列データのための効率よい索引構造(D分野:データベース)
- プロパティ付き接尾辞木の効率よいオフライン構築について
- LA_002 単語幅を制約した接尾辞木の効率のよい構築アルゴリズム(A分野:モデル・アルゴリズム・プログラミング)
- 図書目録カード画像検索システムの改善 : 扱いやすく柔軟なインタフェースへの移行(画像DB, 夏のデータベースワークショップDBWS2005)
- 図書目録カード画像検索システムの改善 : 扱いやすく柔軟なインタフェースへの移行(画像DB, 夏のデータベースワークショップ2005)
- テキストファイルによる図書目録画像データベースの構築と管理
- <発表論文>RFID技術を用いた図書館自動化への期待 (「ディジタル図書館」ワークショップ第26回)
- RFID技術を用いた図書館自動化への期待
- 仮想的な多重分節木による効率良いAIVF符号
- 仮想的な多重分節木による効率良いAIVF符号
- 極小出現区間を用いたエピソードマイニングの高速化(データベース・アルゴリズム)
- 極小出現区間を用いたエピソードマイニングの高速化(データベース・アルゴリズム)
- D-019 ビット並列手法に基づく大規模連続ストリームパターン照合(D分野:データベース)
- 位置情報付き個人コンテンツ分類のための線形HMMを用いたイベントクラスタリング (情報論的学習理論と機械学習)
- 省スペースな線形時間文法圧縮アルゴリズム
- LZW圧縮テキストに対する高速文字列照合アルゴリズム
- STVF符号--頻度刈り込み接尾辞木を用いた効率よいVF符号化
- 効率よいVF符号のためのMDL原理に基づく分節木の訓練手法
- 効率よいVF符号のためのMDL原理に基づく分節木の訓練手法
- LA-007 Arc-annotation付きテキストに対するパターン照合アルゴリズム(A分野:モデル・アルゴリズム・プログラミング)
- 位置情報付き個人コンテンツ分類のための線形HMMを用いたイベントクラスタリング(機械学習応用,テキスト・Webマイニング,一般)
- 1. データストリームのためのマイニング技術(最新!データマイニング手法)
- 誤りを許したVLDCパタン照合アルゴリズム(文字列アルゴリズム)
- 分類階層を考慮したパタン照合アルゴリズム (特集 オントロジー)
- JPEG画像に対する2次元近似パターンマッチング
- 非対称で個体差がある関係データ分析のための機会調整型無限関係モデル (情報論的学習理論と機械学習)
- 共有辞書を用いた効率の良い圧縮アルゴリズム
- 非対称で個体差がある関係データ分析のための機会調整型無限関係モデル(ベイズ統計モデル,統計推理,データベース,一般)
- Hough変換を用いた楽曲構造の境界抽出
- 歌唱者の異なる同一楽曲の検索に適した音楽指紋
- 共有辞書を用いた効率の良い圧縮アルゴリズム(データ処理の効率化,ビッグデータとソーシャルコンピューティング,及び一般)
- A-008 効率よいVF符号化のための分節木を訓練する新手法(アルゴリズム・コンピュテーション(1),A分野:モデル・アルゴリズム・プログラミング)
- 非対称で個体差がある関係データ分析のための機会調整型無限関係モデル