2004年 4月 1日 作成 データ 設計技法 (統語論と意味論) >> 目次 (テーマ ごと)
2008年 5月 1日 補遺  


 
自然言語理解の研究領域には、音韻論・形態論・統語論・意味論・語用論がある。

 小生は、統語論とか意味論という言葉を、ときどき、使うが、それらの言葉は、言語学上の用語である。
 自然言語理解の研究領域として、以下の領域がある(注1)

 (1) 音韻論
 (2) 形態論
 (3) 統語論
 (4) 意味論
 (6) 語用論

 コンピュータ が言語 (自然言語) を扱う際、以上の領域は、いずれも、大切であるが──たとえば、音韻論は、音声処理の基礎となるし、形態論は、ベタ 打ちされた テキスト のなかから単語を切り出す形態素解析の基礎となるなど──、文章情報を対象にした データベース 設計では、形態論・統語論および意味論が中核となる。

 言語学では、意味を有する音形の最小単位を形態素という。1つの形態素が 1つの単語になることもあれば、複数の形態素が集成されて 1つの単語になることもある。

 形態論とは、形態素 (文字) が単語を構成するしくみに関する研究領域である。統語論とは、単語が文を構成する きまり に関する研究領域である。意味論とは、文と言語外世界との関係に関する研究領域である。語用論とは、話し手と聞き手との間に成立している発話状況を考慮して、言葉の使われかたを研究する領域である。

 統語論は、構文論とか シンタックス とも云われ、単語が結びついて文を構成する際の文法上のきまり・しくみ (文法的構造) を研究する領域であり、単語から文に至る過程の研究を対象としていない (すなわち、形態論と統語論は、べつべつの研究領域である)。

 
セマンティクス と セマシオロジー は違う。

 意味論には、以下の 2つの アプローチ がある。

 (1) 形式から内容を研究する (この アプローチ を、セマシオロジー という)。
 (2) 内容から形式を研究する (この アプローチ を、オノマシオロジー という)。

 セマシオロジー というのは、たとえば、mizu と発音され、「水」 と表記される語が、言語外現実のなかで、どういう モノ と対応するのかを研究することをいう。セマシオロジー は、さらに、意味の歴史的変遷を調べることも研究対象としている。オノマシオロジー は、「色のない・透き通った冷たい液体」という言語外現実が所与の言語では、どのように命名されるのか を研究対象とする。

 自然言語を対象としている言語研究では、「形式と内容の対応関係」 は、以下の 2つの時点が考慮される。

 (1) 通時的 (ディアクロニック)、すなわち、歴史的な意味変遷を調べること。
 (2) 共時的 (サンクロニック)、すなわち、現時点での意味成立を調べること。

 意味論 (セマンティクス) というのは、(2) のことをいい、セマシオロジー とは違う、という点を注意されたい。

 いっぽう、(論理学や数学などが対象としている) 論理的意味論では、シンボル の歴史的変遷はない。論理的意味論では、記号を運用する規則の解釈 (モデル の解釈) が対象とされる。また、人工言語 (記号列) では、メタ 言語を作ることもできる──自然言語には、階層 (メタ) はない。

 さて、以上の概念を前提にすれば、小生が、T字形 ER手法のことを 「言語の形態論」 と云っている理由を理解できるであろう。T字形 ER手法では、事業のなかで使われている情報を対象にして、まず、形態素および単語を単位にしながら、単語を検証している。それが形態論である。そして、次ぎに、単語から文に至る過程 (entity の定立) は、統語論である。しかも、1つの複文は、いくつかの単文から構成されるという命題論理の規則は、統語論である。
 記号列の操作 (公理系、モデル) では、まず、統語論が前提とされる。

 
論理的意味論では、「意味」 は 「制約条件 (constraint)」 として記述される。

 さて、モデル が、意味論を、どのようにして扱うか、という点が論点になる。
 論理的意味論では、「意味」 は 「制約条件 (constraint)」 として記述される──たとえば、関係 モデル の 「従属性」 を考えてみてほしい(注2)。そして、論理的意味論では、その やりかた は、正しい。
 たとえば、以下の関数従属性 (および、包含従属性)は、「配属」 を意味している。

  {従業員番号、従業員名称、部門 コード (R) }.

 ただし、ここで論点になるのは、「配属されていない」 従業員の部門 コード は、null になる、という点である。null には、以下の 2つの 「意味」 がある。

 (1) unknown
 (2) undefined

 null は、「制約条件 (従属性)」 を前提にして 「意味」 を記述するときに起こる悩ましい問題点である。
 もう 1つの論点は、包含従属性 (参照属性) は、すでに、テーブル の順序系列を前提にしている、という点である。以下を例にする。

  {請求番号、請求日、出荷番号 (R) }.

 たしかに、データ を観れば、「出荷 → 請求」 が成立している意味を読み取ることができる。しかし、論点になるのは、データ 設計の際、請求 テーブル のなかに、出荷番号を挿入するのか、出荷 テーブル のなかに、請求番号を挿入するのか、という点である。つまり、参照制約を判断するためには、それに先だって、「出荷 → 請求 (代金回収)」 あるいは 「請求 → 出荷 (入金確認後、出荷)」 を知っていなければならない、ということである。
 したがって、(事業を対象にした データ 構造を設計するには、) 参照制約を判断する資料を考えなければならない。

 
T字形 ER手法は、参照制約を判断する資料として、「情報 (帳票、画面、レポート など)」 を使う。

 T字形 ER手法も、(関係 モデル と同じように) 意味論を、直接には、前提にしていない。
 T字形 ER手法は、参照制約を判断する資料として、事業のなかで伝達される 「情報 (帳票、画面、レポート など)」 を使う。なぜなら、「情報」 そのものが、すでに、意味論を前提にして作られているから。とすれば、「情報」 を対象にすれば、統語論のなかで、意味を判断することができる。言い換えれば、T字形 ER手法は、セマシオロジー に近い アプローチ を導入している──ただし、現時点で使われている 「情報」 を対象にしているので、歴史的な意味変遷を対象とはしていないが。

 そして、T字形 ER図が、いったん、描かれたら、改めて、意味論を考慮している。すなわち、(時系列のなかで配置された) 「event」 を、順次、追跡しながら、事業の実態を検証している。

 
[ 注釈 ]

(注 1) 言語の科学を研究するには、以下の文献を参照されたい。

     岩波講座 「言語の科学」 (全 11巻).

     ただ、言語学を専門にしていない我々が、それを通読することは、無理だと思う。
     小生も通読していないことを、正直に述べておく。

 
(注 2) 制約条件を使って意味が記述される典型的な例として、Boyce-Codd の正規形を考えてみれば良い。
     Boyce-Codd 正規形は、テーブル R から、或る事実が消滅してしまうことを回避するために提示された。



[ 補遺 ] (2008年 5月 1日)

 本 エッセー は、4 年前に綴られました。いま読み返してみて、意味論に関して、詰めが あまいと思う (The conclusion of this essay is rather weak)。本 エッセー を綴った翌年 (2005 年 9 月) に、拙著 「データベース 設計論」 を出版しました──「データベース 設計論」 は、「赤本」 という愛称でよばれています。「赤本」 は、TM (T字形 ER手法の改良版) を 「論理的意味論」 の観点に立って、体系化した書物です。言い換えれば、2005年には、私の考えかたは、明らかに、「(論理的) 意味論」 に傾いていた、ということです。その時点から バックワード して本 エッセー を読み返してみれば、どうして、「論理的意味論」 を言語哲学の観点から言及しなかったのか が不思議です──というのは、TM は、「論理的意味論」 に立っているのですが、「論理的意味論」 の典型である コッド 関係 モデル とは違う路線を取っているから。本 エッセー のなかで、TM が 「言語の形態論」 であることを言及していますが、この点を もっと詳細に述べるべきだったと思います。

 「2 チャンネル」 や 色々な Wiki で、TM が非難されているそうですが、殊に、「赤本」 の 159 ページ (「event」 の並びの例外) が 「奇妙である」 と評されているそうです。そういう非難をしたひとは、たぶん、TM を 「従来の テーブル 設計法」 の観点でしか会得していないのでしょうね。私 (TM) は、事業過程・管理過程のなかで伝達されている 「情報」 に対して、「『意味』 の構成」 を記述することを主眼としていて、「設計図」 を作ることを最初の狙いにはしていない──勿論、TM は、データベース 設計も兼ねているので、「『意味』 の構成」 を検討したら、その構成が セット (集合) として妥当かどうかの検証をしますが、それは、TMD が構成されたあとの検討事項です。

 「論理的意味論」 を考えるには、以下の 6つの系統を学習しなければならないでしょう。

  (1) フレーゲ、ラッセル、ウィトゲンシュタイン
  (2) レーヴェンハイム、スコーレム、ゲーデル、チューリング
  (3) タルスキー、カルナップ、クリプキ
  (4) ヘンペル、ポパー
  (5) チョムスキー、モンタギュー
  (6) クワイン、ダメット、ストローソン、デイヴィドソン

 TM は、基本路線として、ウィトゲンシュタイン の哲学を底辺にしていますが、構文論上 (コンピュータ のなかに 「構成」 を記述するという意味で、文法規則を考えなければならないので、) チューリング の 「一般手続き (アルゴリズム)」 の考えかたを汲みして、モデル 体系として、ヘンペル の 「経験論的言語 L」 および カルナップ の 「L-真、F-真」 を取り入れています。そして、モデル が モデル として自立・自律できるという考えかたを ポパー から借用しています。

 以上の点から判断できるのは、いままでの TM に対する検討は、(TM が 「言語の形態論」 であると言いながらも、) どちらかと言えば、いわゆる 「数学基礎論 (あるいは、「数学の哲学」 をめぐる争点)」 の観点からの検討でした。今後、TM を、「言語哲学」 の観点から検討しようと考えています──その学習 (「言語哲学」 の学習) を 私は、今年からはじめました。

 「言語哲学」 の学習では、「チョムスキー、モンタギュー」 の系統に進むか、あるいは、「ダメット、ストローソン、デイヴィドソン」 の系統に進むかは、哲学上、争点になるでしょうね。モンタギュー は、2 階の ロジック を示しているので、私は モンタギュー に対して興味を抱いているのですが、TM の路線として、最終的に、「疑いもなく」、デイヴィドソン の路線をとるでしょう。というのは、かれの哲学が、TM の底辺の哲学に近いから。





  << もどる ベーシックス すすむ >>
  データベースの基礎知識