共有辞書を用いた効率の良い圧縮アルゴリズム
スポンサーリンク
概要
- 論文の詳細を見る
1999 年に Larsson と Moffat らによって提案された Re-Pair アルゴリズムは,単純なヒューリスティックに基づいた,非常に高い圧縮率を達成する文法圧縮の一つである.しかしながら, Re-Pair アルゴリズムはオフラインのアルゴリズムであり,また,線形サイズではあるものの多くのメモリを使用する.したがって,巨大なテキスト上でアルゴリズムを実行するためには,テキスト全体をいくつかのブロックに分割し,ブロック毎に圧縮を行う必要がある.このような状況において,圧縮時に用いる辞書の一部をブロック間で共有することは,圧縮パフォーマンスの向上に有効であると考えられる.本稿では,ブロック毎に Re-Pair アルゴリズムを行い,辞書式圧縮の辞書に相当する生成規則の一部をブロック間で共有する手法について論じる.ここでは,抽出された文法の符号化には固定長の符号化を用いている.圧縮パフォーマンスを決定する 3 つのパラメータ (ブロックサイズ,辞書サイズ,辞書における共有辞書の割合) の変化によって,圧縮時間と圧縮率がどのように変化するのかを実験的に示し,その傾向について議論する.
- 2012-12-05
著者
-
喜田 拓也
北海道大学大学院情報科学研究科
-
吉田 諭史
北海道大学大学院情報科学研究科
-
喜田 拓也
九州大学附属図書館研究開発室
-
吉田 諭史
北海道大学 大学院情報科学研究科
-
笹川 裕人
北海道大学大学院情報科学研究科
-
関根 渓
北海道大学大学院情報科学研究科
関連論文
- 分節木と共有文字列で表現される符号上での効率良い圧縮照合アルゴリズム(アルゴリズム理論,情報検索,情報爆発論文)
- VF符号上における圧縮照合アルゴリズム
- JPEG画像に対する2次元パターンマッチングアルゴリズム(一般セッション1,移動カメラ画像処理におけるパターン認識とメディア理解)
- 分節木と共有文字列で表現される符号上での効率良い圧縮照合アルゴリズム
- D-1-8 部分文字列の出現頻度に基づくVF符号(D-1.コンピュテーション,一般セッション)
- VF符号と算術符号の組合せ手法による圧縮性能の向上について
- VF符号と算術符号の組合せ手法による圧縮性能の向上について
- VF符号と算術符号の組合せ手法による圧縮性能の向上について
- D-28 文字列照合技術に基づくXMLデータ処理(XMLデータ処理,D.データベース)
- 2G-2 圧縮テキストに対する文字列照合のための統一的枠組み
- 2G-1 データ圧縮による文字列照合の高速化
- ウェブ閲覧における効率的なキーワード抽出とその利用
- 4ZK-7 ブラウジング支援のための一覧性の高いキーワードリストの抽出(情報爆発時代におけるテキストデータ処理,学生セッション,「情報爆発」時代に向けた新しいIT基盤技術)
- プロパティ接尾辞木のオフライン線形時間構築アルゴリズム(構造化文書・XML,データ工学論文)
- D-020 プロパティ接尾辞木 : メタデータ付き系列データのための効率よい索引構造(D分野:データベース)
- プロパティ付き接尾辞木の効率よいオフライン構築について
- LA_002 単語幅を制約した接尾辞木の効率のよい構築アルゴリズム(A分野:モデル・アルゴリズム・プログラミング)
- 図書目録カード画像検索システムの改善 : 扱いやすく柔軟なインタフェースへの移行(画像DB, 夏のデータベースワークショップDBWS2005)
- 図書目録カード画像検索システムの改善 : 扱いやすく柔軟なインタフェースへの移行(画像DB, 夏のデータベースワークショップ2005)
- テキストファイルによる図書目録画像データベースの構築と管理
- <発表論文>RFID技術を用いた図書館自動化への期待 (「ディジタル図書館」ワークショップ第26回)
- RFID技術を用いた図書館自動化への期待
- 仮想的な多重分節木による効率良いAIVF符号
- 仮想的な多重分節木による効率良いAIVF符号
- 極小出現区間を用いたエピソードマイニングの高速化(データベース・アルゴリズム)
- 極小出現区間を用いたエピソードマイニングの高速化(データベース・アルゴリズム)
- D-019 ビット並列手法に基づく大規模連続ストリームパターン照合(D分野:データベース)
- 位置情報付き個人コンテンツ分類のための線形HMMを用いたイベントクラスタリング (情報論的学習理論と機械学習)
- 省スペースな線形時間文法圧縮アルゴリズム
- LZW圧縮テキストに対する高速文字列照合アルゴリズム
- STVF符号--頻度刈り込み接尾辞木を用いた効率よいVF符号化
- 効率よいVF符号のためのMDL原理に基づく分節木の訓練手法
- 効率よいVF符号のためのMDL原理に基づく分節木の訓練手法
- LA-007 Arc-annotation付きテキストに対するパターン照合アルゴリズム(A分野:モデル・アルゴリズム・プログラミング)
- 位置情報付き個人コンテンツ分類のための線形HMMを用いたイベントクラスタリング(機械学習応用,テキスト・Webマイニング,一般)
- 1. データストリームのためのマイニング技術(最新!データマイニング手法)
- 誤りを許したVLDCパタン照合アルゴリズム(文字列アルゴリズム)
- 分類階層を考慮したパタン照合アルゴリズム (特集 オントロジー)
- JPEG画像に対する2次元近似パターンマッチング
- 非対称で個体差がある関係データ分析のための機会調整型無限関係モデル (情報論的学習理論と機械学習)
- 共有辞書を用いた効率の良い圧縮アルゴリズム
- 非対称で個体差がある関係データ分析のための機会調整型無限関係モデル(ベイズ統計モデル,統計推理,データベース,一般)
- Hough変換を用いた楽曲構造の境界抽出
- 歌唱者の異なる同一楽曲の検索に適した音楽指紋
- D-009 大規模並列文字列照合のGPUによる高速化(ストレージと検索,D分野:データベース)
- 共有辞書を用いた効率の良い圧縮アルゴリズム(データ処理の効率化,ビッグデータとソーシャルコンピューティング,及び一般)
- A-008 効率よいVF符号化のための分節木を訓練する新手法(アルゴリズム・コンピュテーション(1),A分野:モデル・アルゴリズム・プログラミング)
- 非対称で個体差がある関係データ分析のための機会調整型無限関係モデル