sdi - Page: 157

　サブセットの記述は、同一のサブセットでは「＝」を使い、相違のサブセットでは「×」を使う。
「同一」とか「相違」というのは、DA （Data Analyst）が、作図中、すでに認知しているので、強いて、べつべつの記号を使わなくてもよいのではないか、という疑問があるかもしれない。

　べつべつの記号を使う理由は、「null」に対して注意を促すためである。
　（数学の関数を使っている）データ・モデルでは、モデルのなかで、「null」は起こり得ない（！）

　コッド博士（Codd, E.F.）は、1970年代に、セット・アット・ア・タイム法を考えて、[ キー（indexing）およびレコードを使った mechanism とはちがう --物理的には、ポインターを使わない--] データ構造としてテーブル構造を使い、テーブルに対して column 単位のアクセス手法（RDB）を提示した。
　セット・アット・ア・タイム法の根底の思想が「直積集合」である。

　コッド博士は、1980年代後半に、「SQL の致命的な欠点（Fatal Flaws）」という論文を公にして、IBM 社の SQL が（2値ロジック [ 真と偽のふたつの値 ] を前提にしていて）「maybe （null）」を扱っていないと非難した。「null」は多義（unknown と undefined）なので、コッド博士は、4値ロジック [ 真・偽・unknown・undefined ] を使った。

　たとえば、直積集合 R (a, b) において、以下を考えてみる。
　（1） a は、従業員番号の集合｛01, 02, 03, 04｝のなかの任意のメンバーとする。
　（2） b は、部門コードの集合｛ A, B ｝のなかの任意のメンバーとする。

　（a, b）は「tuple （集合）」である。
　[ 空集合ではない ] いくつかの集合のなかから、それぞれ、1つずつメンバーを選んできて並べたら、1つの集合になる--この考えかたを「選択公理」という--。この並べられた集合のことを「tuple」という。
　　R （Relation）は「関数」である。「tuple」を形成するための--選ばれたそれぞれのメンバーを並べるための [ 順序対を形成するための ]--「関数」である。

　たとえば、従業員番号の集合から 01 を選んで、部門コードの集合から A を選んで、以下のような tuple （順序対）を生成する（つまり、従業員 01 は部門 A に配属されている）。

　　R (01, A).

　同様にして、従業員 02 は部門 B に配属され、従業員 03 は部門 A に配属されている、とすれば--従業員 03 が、従業員 01 と同じ部門 A に配属されているので、部門 A は全射である点に注意されたい--、以下のような順序対が生成される。

　　R (02, B).
　　R (03, A).

　さて、ここまで示せば、セット・アット・ア・タイム法が、column 単位にアクセスする理由を理解できるでしょう。すなわち、従業員番号の column にある値（メンバー）は従業員番号の集合（セット）から選択され、部門コードの column にある値（メンバー）は部門コードの集合（セット）から選択されている。それぞれの column （メンバー）は、それぞれの集合（セット）から選択され、こういう column 単位のアクセスのことをセット・アット・ア・タイム（set-at-a-time）--セット単位の縦列のアクセス--という。
　ちなみに、セットは、「ドメイン（domain）」という言いかたをする

　さて、従業員番号 04 は、「どの部門にも配属されていない」とする。

　　R (04, null).

　つまり、従業員番号 04 は、このリレーション（関数）では充足的ではないことになる（！）
　なぜなら、「null」を部門コードの集合から選択することはできないから。
　そもそも、部門コードの集合を生成するときに、述語論理 f (x) を使って、「共通の述語（性質）」のモノを集めてセットを生成しているのだから--「置換公理」を前提にしているのだから--、[ 空集合でないかぎり、] 集合のなかには「null」は起こり得ない。

　以上にようにして、データ・モデルのなかでは--少なくとも、述語論理と集合論を使ったデータ・モデルのなかでは--、「null」は「致命的な欠点」になる。したがって、「null」に対しては、「適切な」措置を施さなければならない。もし、「null」を認めるのであれば、コッド博士が示したように 4値ロジックを使わなければならない。しかし、実地のシステム作りでは、はたして、プログラムを4値ロジックで作成しているかしら。

　それを注意するために、Ｔ字形 ER手法では、サブセット（部分集合）を生成するときに、「相違」のサブセットを意識的に生成するようにしている。

　
[ 注意 ]

　上述した従業員モデルでは、部門コードを、タプルのなかで、あたかも、直積集合のように扱っているが、正確に言えば、部門コードは、包摂関係のなかで挿入されるコードである。Null を、単純に示すために、正確性を犠牲にして、部門コード (R) を使ったので、ご了承ください。　

2002年10月 1日	同一のサブセットと相違のサブセット	>> 目次（作成日順）
●　QUESTION	同一のサブセットと相違のサブセットでは、なぜ、記述方法はちがうのか。
▼　ANSWER	null に注意するため。
2007年10月16日補遺

	<< もどる	HOME	すすむ >>
	データ解析に関するＦＡＱ