共有辞書を用いた効率の良い圧縮アルゴリズム(データ処理の効率化,ビッグデータとソーシャルコンピューティング,及び一般)
スポンサーリンク
概要
- 論文の詳細を見る
The Re-Pair algorithm proposed by Larsson and Moffat in 1999 is a simple grammar-based com-pression method that achieves an extremely high compression ratio. However, Re-Pair is an offline and very space consuming algorithm. Thus, to apply it to a very large text, we need to divide the text into smaller blocks. Consequently, if we share a part of the dictionary among all blocks, we expect that the compression speed and ratio of the algorithm will improve. In this paper, we implemented our method with exploiting variable-to-fixed-length codes, and empirically show how the compression speed and ratio of the method vary by adjusting three parameters: block size, dictionary size, and size of shared dictionary. Finally, we discuss the tendencies of compression speed and ratio with respect to the three parameters.
- 一般社団法人電子情報通信学会の論文
- 2012-12-05
著者
-
喜田 拓也
北海道大学大学院情報科学研究科
-
喜田 拓也
九州大学附属図書館研究開発室
-
吉田 諭史
北海道大学 大学院情報科学研究科
-
笹川 裕人
北海道大学大学院情報科学研究科
-
関根 渓
北海道大学大学院情報科学研究科
-
吉田 諭史
北海道大学大学院情報科学研究科:日本学術振興会特別研究員
関連論文
- 分節木と共有文字列で表現される符号上での効率良い圧縮照合アルゴリズム(アルゴリズム理論,情報検索,情報爆発論文)
- VF符号上における圧縮照合アルゴリズム
- JPEG画像に対する2次元パターンマッチングアルゴリズム(一般セッション1,移動カメラ画像処理におけるパターン認識とメディア理解)
- 分節木と共有文字列で表現される符号上での効率良い圧縮照合アルゴリズム
- D-1-8 部分文字列の出現頻度に基づくVF符号(D-1.コンピュテーション,一般セッション)
- VF符号と算術符号の組合せ手法による圧縮性能の向上について
- VF符号と算術符号の組合せ手法による圧縮性能の向上について
- VF符号と算術符号の組合せ手法による圧縮性能の向上について
- D-28 文字列照合技術に基づくXMLデータ処理(XMLデータ処理,D.データベース)
- 2G-2 圧縮テキストに対する文字列照合のための統一的枠組み
- 2G-1 データ圧縮による文字列照合の高速化
- ウェブ閲覧における効率的なキーワード抽出とその利用
- 4ZK-7 ブラウジング支援のための一覧性の高いキーワードリストの抽出(情報爆発時代におけるテキストデータ処理,学生セッション,「情報爆発」時代に向けた新しいIT基盤技術)
- プロパティ接尾辞木のオフライン線形時間構築アルゴリズム(構造化文書・XML,データ工学論文)
- D-020 プロパティ接尾辞木 : メタデータ付き系列データのための効率よい索引構造(D分野:データベース)
- プロパティ付き接尾辞木の効率よいオフライン構築について
- LA_002 単語幅を制約した接尾辞木の効率のよい構築アルゴリズム(A分野:モデル・アルゴリズム・プログラミング)
- 図書目録カード画像検索システムの改善 : 扱いやすく柔軟なインタフェースへの移行(画像DB, 夏のデータベースワークショップDBWS2005)
- 図書目録カード画像検索システムの改善 : 扱いやすく柔軟なインタフェースへの移行(画像DB, 夏のデータベースワークショップ2005)
- テキストファイルによる図書目録画像データベースの構築と管理
- <発表論文>RFID技術を用いた図書館自動化への期待 (「ディジタル図書館」ワークショップ第26回)
- RFID技術を用いた図書館自動化への期待
- 仮想的な多重分節木による効率良いAIVF符号
- 仮想的な多重分節木による効率良いAIVF符号
- 極小出現区間を用いたエピソードマイニングの高速化(データベース・アルゴリズム)
- 極小出現区間を用いたエピソードマイニングの高速化(データベース・アルゴリズム)
- D-019 ビット並列手法に基づく大規模連続ストリームパターン照合(D分野:データベース)
- 位置情報付き個人コンテンツ分類のための線形HMMを用いたイベントクラスタリング (情報論的学習理論と機械学習)
- 省スペースな線形時間文法圧縮アルゴリズム
- LZW圧縮テキストに対する高速文字列照合アルゴリズム
- STVF符号--頻度刈り込み接尾辞木を用いた効率よいVF符号化
- 効率よいVF符号のためのMDL原理に基づく分節木の訓練手法
- 効率よいVF符号のためのMDL原理に基づく分節木の訓練手法
- LA-007 Arc-annotation付きテキストに対するパターン照合アルゴリズム(A分野:モデル・アルゴリズム・プログラミング)
- 位置情報付き個人コンテンツ分類のための線形HMMを用いたイベントクラスタリング(機械学習応用,テキスト・Webマイニング,一般)
- 1. データストリームのためのマイニング技術(最新!データマイニング手法)
- 誤りを許したVLDCパタン照合アルゴリズム(文字列アルゴリズム)
- 分類階層を考慮したパタン照合アルゴリズム (特集 オントロジー)
- JPEG画像に対する2次元近似パターンマッチング
- 非対称で個体差がある関係データ分析のための機会調整型無限関係モデル (情報論的学習理論と機械学習)
- 共有辞書を用いた効率の良い圧縮アルゴリズム
- 非対称で個体差がある関係データ分析のための機会調整型無限関係モデル(ベイズ統計モデル,統計推理,データベース,一般)
- Hough変換を用いた楽曲構造の境界抽出
- 歌唱者の異なる同一楽曲の検索に適した音楽指紋
- D-009 大規模並列文字列照合のGPUによる高速化(ストレージと検索,D分野:データベース)
- 共有辞書を用いた効率の良い圧縮アルゴリズム(データ処理の効率化,ビッグデータとソーシャルコンピューティング,及び一般)
- A-008 効率よいVF符号化のための分節木を訓練する新手法(アルゴリズム・コンピュテーション(1),A分野:モデル・アルゴリズム・プログラミング)
- 非対称で個体差がある関係データ分析のための機会調整型無限関係モデル