sdi - Page: 184

2003年 1月16日

トラヴァーサル・テーブル

　
　今回は、セット・アット・ア・タイム法の実装形（プロダクトとしての RDB）の「からくり」を解析にする。

　
　RDB （Relational Data Base）は以下の 2点を特徴としている。

　（1）データ構造は「テーブル」構造である。
　（2）データに対するアクセスは（view を使った）「column 単位」のアクセスである。

　テーブル構造（縦列と横列から構成される 2次元の flat-file）において、横列のことを「row」といい、縦列のことを「column」という。

[ 注意 ]
　セット・アット・ア・タイム法を基本のアクセス・メソッドとしている RDB では、「キー（indexing）」は internals （内的構造）と無関係である。
　つまり、（RDB は、バージョンアップのなかで「CREATE INDEX」を附加してきたが）「CREATE INDEX」はテーブル構造に対して「上積み」されたアクセス・メソッドなのであって、セット・アット・ア・タイム法とは関係のない論点である。
　この点については──indexing については──、後日、記述する。

　以下のテーブルを前提とする。

「服」テーブル
ROWID	サイズ	色
001	S	白
002	M	青
003	M	黒
004	L	赤

　
　以下の SQL を実行する。

　SELECT count (...) FROM "服"
　WHERE　サイズ＝ "M"　OR　色＝ "黒".

　
1. トラヴァーサル・テーブル

　セット・アット・ア・タイムは、セットを単位として、「カラム（column、縦列）単位」にアクセスするので、上述の SQL を実行すれば、以下のようなアクセス経路を辿る。

　（1）サイズのカラムを走査（scan）して、値が「M」である ROWID （002 と 003の 2つ）を得る。
　（2）さらに、色のカラムを走査して、値が「黒」である ROWID （003）を得る。

　複数の選択条件を──ここでは選言（OR）であるが──、それぞれ単独に、カラムを走査すれば、検索結果として 3件のデータを得ることになるが、以下の 2つは同じデータである。

　（1）サイズのカラムを走査して得た ROWID ＝ 003
　（2）色のカラムを走査して得た ROWID ＝ 003

　セット・アット・ア・タイム法はカラム単位のアクセスを原則にしているので、複数の選択条件（AND/OR）が記述されたなら、同一 ROW であるかどうかの検証をしなければならない。
　同一 ROW の検証をするために、RDB は、一時的な作業域（work-file）を用意する（生成する）。この作業域のことを「トラヴァーサル・テーブル（traversal-table）」という。

　RDB は、（複合選択条件に対して）カラムを走査しながら検索結果をトラヴァーサル・テーブルに書き込んで、すべての検索が終わってから、トラヴァーサル・テーブルのなかに書き込まれたデータに対して同一 ROW の検証をする。
　したがって、（トラヴァーサル・テーブルを生成して、同一 ROW の検証をすれば、）資源が費消され、パフォーマンスは低下する。

　言い換えれば、多量データを対象にして、「CREATE VIEW」を使って複合検索を実行すればパフォーマンスが悪いので、なんらかの対応をしなければならないということである（──対応策については、後日、記述する）。

警告！
多量データと多量トランザクションを対象にしているのなら、「CREATE VIEW」を使わないほうがよい。

　
[ 注意 ]
　対象のデータが少量なら、「CREATE VIEW」を使って、メモリーのなかで走査しても問題はない。
　ここで論点にしているのは、いわゆる「基幹系」と呼ばれているシステムのなかで扱われている多量データ（数百万件、数千万件）と多量トランザクションである。
　数百万件のデータを join して──あるいは、複数の「曖昧検索」を使って──、「瞬きの」レスポンスを実現することを目的にしている。

2. 実行プラン（execution-plan）

　SQL を「最適に」実行するために、RDB には、SQL を解析して「最適な」実行経路を判断する機能が搭載されている。その機能のことを「オプティマイザ（optimizer）」という。
　オプティマイザは、以下のいずれかを基準にして、SQL の「最短のアクセス経路」を判断する。

　（1）（最小の） I/O 回数
　（2）（最小の） CPU 量

　I/O 回数を判断基準にするやりかたを「ルール・ベース」といい、CPU 量を判断基準にするやりかたを「コスト・ベース」という。市販されている RDB は「コスト・ベース」を標準値（default）にしている。

　SQL を実行したなら、かならず、実行プランを調べてほしい。
　なぜなら、（多量データと多量トランザクションを前提とするなら）実行プランのなかで以下のメッセージが記述されていたらまずい（！）

　　悪い例：　TABLE SCAN　×××（数値）

　つまり、（多量データと多量トランザクションを前提とするなら）「TABLE SCAN」は、資源を費消して、パフォーマンスが悪い、ということである。対応策については、後日、記述する。

警告！
かならず、実行プランを検証せよ。以下のメッセージが出たら、まずい（！） TABLE SCAN　×××

　
[ 注意 ]
　対象のデータが少量なら、「CREATE VIEW」を使って、メモリーのなかで走査しても問題はない。
　ここで論点にしているのは、いわゆる「基幹系」と呼ばれているシステムのなかで扱われている多量データ（数百万件、数千万件）と多量トランザクションである。
　数百万件のデータを join して--あるいは、複数の「曖昧検索」を使って--、「瞬きの」レスポンスを実現することを目的にしている。

　
　次回は、複合検索条件を、もう少し詳細に解析してみる。
　（「create view」以外にも、「order-by」を使わないほうがよい、という点を検証してみる。）

	<< もどる	HOME	すすむ >>
	ベーシックス