sdi - Page: 101

　サブセット化には、以下の 2つがある。

　　（1）形式的サブセット化
　　（2）実質的サブセット化

　形式的サブセット化は（データのなかに）「null」が生じるのでサブセットを生成することをいう。
　実質的サブセット化は「区分コード」を使ってサブセットを生成することをいう。

　
　たとえば、品目番号が identifier として成立していて、品目番号の値によって、データの扱いがちがうことがある。品目番号の値が、たとえば、100未満なら、アルゴリズム A を使い、100以上なら、アルゴリズム B を使うという（アルゴリズムのなかの）「if-else」の構造を前提にしてデータ値が用意されていることがある。そういうときには、品目番号の値を使ってサブセットを生成するかどうか、という点が論点になるが、そのような事象は、純然たるアルゴリズムの適用の論点であって、データ構造の論点ではない。したがって、サブセットは生成しない。そういう事象は、アトリビュート・リストのなかで記述する。

　データの値によって、アトリビュートの構成が違ってくることがある。以下を例にする。

　品目｛品目コード、品目名称、備考｝.

　ただし、「備考」には、品目が完成品なら、（ユーザが依頼した）加工具合が記述される、とする。
　とすれば、データ構造は、以下のようになる。

　　品目 [ Ｒ ]
　　　｜
　　　× null （備考）
　　　│
　　　├｛品目番号、品目名称｝ [ 原状態 ]
　　　│
　　　└｛品目番号、品目名称、備考｝ [ 製品（加工完了） ]

　
　そういう事象では、データ（アトリビュート）のなかに null が生じるので、null を宣言したサブセットを生成することになる（形式的サブセット化）。ただ、ここで論点になるのは、そのようなサブセットに対して、「区分コード」を用意するかどうか、という点である。
　形式的サブセット化に関して、以下のように考えればよい。

　（1）「状態の推移」を記述するのであれば、「区分コード」を用意しないほうがいい。
　（2）「形態ごと」に管理するのであれば、「区分コード」を用意したほうがいい。□

　
[ 注釈 ]
　「データ解析に関する FAQ」のなかで、１月31日に掲載した「サブセットと VE （その 2）」（ページ一覧表のなかの 97ページ）では、以下のように記述されています。

　R＆D 区分コードは（部品に対して）--サブセットとして--「状態」を記述するコードとして作用できる点に特徴がある

　以上の記述が、本ページのなかの「『状態の推移』を記述するのであれば、『区分コード』を用意しないほうがいい。」という記述と矛盾するのではないか、というご指摘をいただきました。この 2つのは矛盾するのではなくて、以下のような違いがあります。

　（1）状態の推移を記述するために--状態の推移を管理するために--「区分コード」をすでに用意している
　　　（ 1月31日の掲載）
　（2）形式的サブセット化（null の扱い）のなかで状態の推移を扱っている
　　　（ 2月23日の掲載）

　（2）のときには、--状態の推移が当初から管理対象になっていなければ--状態の推移を管理する「区分コード」を用意しないほうがよい、という意味です。

　曖昧な記述のために混乱を招いたことをお詫びします。

2002年 2月23日	形式的サブセット化と実質的サブセット化	>> 目次（作成日順）
●　QUESTION	データの値によってデータの扱いが違うなら、サブセットにしたほうがいいのか。
▼　ANSWER	だめ。　サブセットを形成するためのコードあるいは null がなければならない。
2007年 3月16日補遺

	<< もどる	HOME	すすむ >>
	データ解析に関するＦＡＱ