sdi - Page: news208

2003年 4月16日

クラスタ・キー

>> 目次（テーマごと）

　
　クラスター法 [ クラスタリング（clustering）] には、以下の 2つがある。

　（1）分離格納式（複数テーブルを 1つの物理データセットのなかに co-locate するやりかた）
　（2） JOIN 式（複数のテーブルを 1つの物理データセットとして merge するやりかた）

　分離格納式は、複数の論理ファイルを 1つの物理データセット内に分離格納するやりかたであり、JOIN 式は、複数の論理ファイルを join して 1つの物理データセットを生成するやりかたである。

　分離格納式は、大型汎用機系のデータベースに搭載され（たとえば、DB2/MVS や DATACOM/DB など）、JOIN 式は、オープン系のデータベースに搭載されている（たとえば、ORACLE）。

　
1. 分離格納式

[ 前提 ]

（1）従業員番号（EMP-NO、5桁）は部門コード（2桁）と連番（3桁）構成されている。
　　[ こういうコード化は「適切ではない」のだが、説明を簡単にするために使う。]

（2） 1つの物理データセットのなかに 2つのテーブルが格納されている。
　　それぞれのテーブル名称は HNB （社長室用テーブル）と DSSJ （データベース営業部用テーブル）である。

（3）従業員番号がネイティブ・キーおよびマスター・キーとして定義されている。

（4） 1つのデータ・ブロックには 3つのレコードを格納することができる。
　　それぞれのブロックには「空きエリア（slack-area）」が用意されている。

　さて、以上の前提にして、社長室に新たなデータ（従業員番号「01005」）を追加する（以下の図を参照されたい）。

　分離格納式は、最初に、追加されるデータのキー値（ネイティブ・キーおよびマスター・キー）がすでに存在していないかどうかを検証して、同一のキーが存在していないなら、次に、既存のデータを納めているブロックのなかに「空きエリア」があるかどうかを検証する。

　「空きエリア」があれば当該ブロックのなかに新規のデータを追加するし、「空きエリア」がなければ、他のブロックのなかに格納する。

　分離格納式を使う理由は、それぞれのテーブルのなかに納められているデータのシーケンス（native-sequence）を保証しながら、かつ、複数のテーブル間のデータのシーケンスを実現するためにある。
　たとえば、独立採算制を導入している部門組織が、それぞれの部門の従業員ファイルのシーケンスを前提にしながら、全社の従業員ファイルのシーケンスを実現するようなときに使う。

　ただし、「複数 FILE ＝ 1 AREA」式は、「ディスク・スキップの負荷」および「障害修復の迅速性」という難点がある。

テーブル名称	EMP-NO	EMP-NM	cluster-key
HNB	01 001	佐藤正美	001
	01 002	佐藤恵美子	001
	slack-area
DSJ	02 003	佐藤敦	001
	02 004	佐藤剛	001
	slack-area

HNB に納められる

01 005

佐藤大地

001

　
2. JOIN 式

[ 前提 ]

（1）部門テーブルと従業員テーブルが存在する。

（2）それぞれのテーブルは、更新（UPDATE）が少ないが照会（READ）が多い。

unclustered
従業員テーブル		部門テーブル
EMP-NO	DEP-CD	DEP-CD	DEP-NM
100	02	01	A
102	01	02	B
103	02
104	02
105	01

clustered
部門. 従業員
DEP-CD	DEP-NM	EMP-NO
01	A	102
		105
02	B	100
		103
		104

　
　対（a pair）で照会することが多いテーブルを照会のたびに join すればパフォーマンスが悪くなるので──そういうふうに「誤解」されているが、実は、10,000,000件やそれ以上のデータに対して「％値％」（挟み込みワイルドカード検索）を 5つ以上使って join しても「驚異的な（瞬きの）」パフォーマンスを実現できるのだが、ここでは、世間一般の誤解を前提にして綴っていることを了承されたい──、JOIN 式は、join 対象となるテーブルを 1つの物理データセットとしてマージ（merge）しておくやりかたである。
　JOIN 式には以下の利点がある。

　（1） I/O を削減できるので、照会に対して高パフォーマンスを実現できる。
　（2）ストーレッジを節約できる。
　　　なぜなら、クラスター・キーを 1回だけしか格納しないから（図のなかの部門コードを参照されたい）。

　しかしながら、更新が多ければ、マージされたテーブルが物理的に再編成されるので、パフォーマンスが悪くなる。
　したがって、JOIN 式は、更新が少なくて照会が多いテーブルに使用するとされている。

[ 参考 ]
　JOIN 式では、マスター・キーをクラスター・キーとして使うことはできない。というのは、JOIN 式のクラスター・キーは同一値が多数にあるカラムをクラスター・キーとして定義してテーブルを join し、クラスター・キーが 1回だけしか格納されないようにするやりかたなので、一意性を保証するマスター・キーをクラスター・キーとして使うことはできない。
　また、referential integrity を検証しているテーブルに対して JOIN 式のクラスター法を使うことができない。なぜなら、referential integrity が保証されているテーブルを物理的に 1つのテーブルとして生成したら、referential integrity を破ることになるから。

　
3. まとめ

（1）分離格納式
　1つの物理データセットのなかに複数の論理テーブルを格納して、それぞれの論理テーブルのデータのシーケンスを前提しながら、かつ、全体（物理データセットのなかに納められているデータ）のシーケンスを実現する。
　ただし、「ディスク・スキップの負荷」という難点がある。

（2） JOIN 式
　複数の論理テーブルを 1つの物理データセットとしてマージして join 操作の I/O を削減し、照会の高パフォーマンスを実現する。
　ただし、「更新の物理的再編成」という難点がある。

　さて、いずれにしても、クラスタリングは使わないほうが良い。
　データの「シーケンスの保証」および「join の驚異的なパフォーマンス」は、ほかの単純なやりかたを使えば実現できる（後日、述べる）。

	<< もどる	ベーシックス	すすむ >>
	データベースの基礎知識