sdi - Page: 204

2003年 4月 1日

ハッシュ・キー

　
　データに対するアクセス法には、以下の 3つがある。

　（1）セット・アット・ア・タイム法（set-at-a-time）
　（2）レコード・アット・ア・タイム法（record-at-a-time）
　（3）ハッシュ法（hashing）

　セット・アット・ア・タイム法は（直積集合を使った）「column 単位（view 単位）」のアクセス法である。
　レコード・アット・ア・タイム法は（キーを使った）「indexing」のアクセス法である。
　ハッシュ法は「indexing」を使わない。ページのなかに収められているデータを直接にアクセスする手法である。

　複数のページ（page）を束ねた 1つの単位を「バケット（bucket）」という。
　データをバケットのなかに収める（割り振る）ために「ハッシュ関数」を使う。
　ハッシュ関数は、通常、以下の算式が使われる。

　　h (n) ＝ v mod n　（v を n で割った余りの値）

　ただし、v はキー値、n はバケットの数とする。
　例えば、バケット数が 4 であれば、キーの値が 13 であるレコードは 1番目のバケットに収められる。
　[ h (13) ＝ 13 mod 4 ＝ 1 ]。

　今回は、ハッシュの「からくり」を示すために、単純な以下の前提を使う。

　（1）キーの桁数は 2桁とする（たとえば、01, 02, ・・・）
　（2）ハッシュ関数は「1 の位と 10 の位を合計した数値」とする。
　（3）バケットは、9つのページから構成される。

　したがって、キー値が 01 であれば、1番目のページに収められ、キー値が 02 であれば、2番目のページに収められ、キー値が 09 であれば、9番目のページに収められる。

バケット
ページ	ページ	ページ	ページ	ページ	ページ	ページ	ページ	ページ
01	02	03	04	05	06	07	08	09

　
　さて、キーの値が 10 であるデータを考えてみる。
　与えられたハッシュ関数は「1 の位と10 の位を合計した値」であるから、10 はバケットの 1番目に収められる。
　1番目のページには、すでに、01 が収められているので、1番目ページからデータを得ようとすれば、01 なのか 10 なのかを判断しなければならない。
　1つのページのなかに複数のデータが収められている状態を「ハッシュの衝突（conflict）」という。

　さらに、たとえば、キーの桁数を 5桁くらいにしてみれば、100 や 1000 や 10000 も 1番目のページに収められることになる。そして、たとえば、1つのページのなかにデータを収める領域が足らなくなれば、「オーバーフロー域（overflow）」を用意して、オーバーフロー域のなかにデータを収めて、ページとオーバーフロー域をチェーンを使って結んで（chained）アクセス・パス（path）を生成することになる。
　これを「バケットの溢れ（overflow）」という。

　1つのページのなかに 1つのデータを収めれば、レコード・アット・ア・タイム法の indexing （パスを「たぐる」構造）に比べて、高パフォーマンスを実現する。ただし、メモリーなどの資源を多大に費消することになる。
　したがって、高パフォーマンスの実現と資源の費消を天秤にして、最適なハッシュ関数を考えなければならない。

	<< もどる	HOME	すすむ >>
	ベーシックス