sdi - Page: 240

2003年 8月16日

データ圧縮（compress）

>> 目次（作成日順）

　
● データ圧縮は、ディスクのスペースを節約するために使う。

　ディスクのスペースを節約するために、データを圧縮することがある。
　本稿では、文字列の圧縮を対象にして、画像データの圧縮は対象としない。

　データ圧縮とは、以下の要件に合致するデータを圧縮する機能である。

　（1） [ 英文字属性では ] ブランク状態（HEX '40'）が 3 バイト以上継続している。
　（2） [ 数値属性では ] ゼロ（HEX 'F0'）が 3 バイト以上継続している。

　データ圧縮をパフォーマンスの観点から判断すれば、以下の 2点が論点になる。

　（1） 1つのブロックのなかに収納されるレコード件数が多くなる。
　（2）データを拡張するためのバッファ（expand-buffer）を用意しなければならない。

　
● データを圧縮すれば、データのヒット率が高まるというのは迷信である。

　I/O 単位はブロックであり、アクセス単位はビューである。
　1つのブロックのなかに収納されるレコード件数が多くなるので、データのヒット率が高くなると思われているが、データを順次に読み込むなら、たしかにそうだが、ランダムな読み込みでは、あてにならない確率にすぎない。
　しかも、データを順次に読む込むときに、すべてのデータ（レコード）が（後述する）拡張バッファを経由するというのではパフォーマンスが悪い。「ヒット率が高くなる」というのは、パフォーマンスの観点から言えば、迷信である。

　
● DB の高パフォーマンスを実現したいなら、データを圧縮しないほうがいい。

　　データを圧縮していれば、ブロック単位に読み込まれたデータ（複数のレコード）は拡張バッファに転送されて（ビットマップ式などの手法を使って）圧縮されているフィールドが判断され拡張されて、非圧縮のレコード状態に変換されてからビュー単位にアクセスされ、プログラムの演算が終了したら、拡張バッファを使ってレコードが圧縮されてから、ブロックに転送される。すなわち、テーブルとプログラムの間では、通常のデータ・バッファ（および、インデックス・バッファ）の操作に加えて、拡張バッファを経由する操作が割り込む。

　拡張バッファの経由は RDBMS に対して負荷を与える。
　負荷を小生が計測してみたら、最高 25 ％にも及んだ事例があったので──当然ながら、ブランクとゼロが多ければ多いほど負荷は高くなるが──、DB のパフォーマンスが低下する [ ただし、25 ％の負荷というのは RDBMS に対する負荷であって、パフォーマンスが、25 ％、低下するという意味ではない ]。

　逆に言えば、DB の高パフォーマンスを実現したいのなら、データ圧縮は避けるほうが賢明である。
　データ圧縮効果が 30 ％以上、期待できないなら、データ圧縮はしないほうがいい。

	<< もどる	HOME	すすむ >>
	ベーシックス