この記事は訂正があります。訂正箇所は記事中赤文字にしてあります。お手数ですが、詳細については最後の見出しをお読みください。
問題意識
- 人名は当然被る → 数いるから仕方ない
- IP枯渇問題 → 桁増やして対応できる
自然言語の語彙は人間の物理的限界を考慮すると有限と考えられる。これが無限のように感じられるのであれば、それは語彙の多様性に由来するものである。これについて詳細に考えてみたい。
語彙、文字に関する定義
まずはっきりさせておくこととして、語彙と有限の範囲を持った単語の総体である。つまり、語彙集合(vocabulary set)V を定義するとき、その属性は単語である。
V = {w1, w2, w3, ... wn}
分かりやすくするために日本語を例にとる。日本語の表記文字は、ひらがな、カタカナ、漢字である(文字集合 C(character set)とする)。
C = {あ, い,う, ... ア, イ, ウ, ... 亜, 位, 兎, ... Cn}
アルファベット、数字、記号などは話が複雑になるので今回は無視する。すると、日本語における単語集合 W は文字集合 C のべき集合 2C として表現できる。
具体的には、
2C = {あ, {あ, い}, {あ, う}, ...}
W = 2C
のように書き表せる。
筆者の集合論の心得がいまいちのため、こうした集合の数式的な表記の妥当性について判断しかねる。ここで言いたいのは、単語は文字の組合せであるということである。そして、少なくともべき集合は無限に存在するというよく知られた前提を踏まえれば、単語は有限の文字集合から無限に生成されうることが分かる。
しかし、現実の国語辞典や大百科などを見れば分かる通り、人間の物理的な作業能力の限界によって単語の数もまた有限である。ここに、理論上の無限との乖離がある。そして、所属する共同体や接触する情報媒体の経験を通じて人間は有限の単語のなかから更に単語を選び取っていく。そうやって人間の語彙は形成されていく。
つまり、結論としては、語彙は単語に対して人間的バイアスの性質を持った集合であるといえる。人間的バイアスとして先に挙げる成長環境が要因として挙げられ、その詳細について今後検討していく問題になる。
ここまでで一区切りなので、続きはそのうち書くかもしれないし、書かないかもしれないし、白状すると下の本に影響されました。
以上
訂正
×
筆者の集合論の心得がいまいちのため、こうした集合の数式的な表記の妥当性について判断しかねる。ここで言いたいのは、単語は文字の組合せであるということである。そして、少なくともべき集合は無限に存在するというよく知られた前提を踏まえれば、単語は有限の文字集合から無限に生成されうることが分かる。
○
筆者の集合論の心得がいまいちのため、こうした集合の数式的な表記の妥当性について判断しかねるが、ここで言いたいのは、単語は文字の組合せであるということである。そして、少なくともべき集合は有限集合であるが、元の集合よりも要素数(濃度)が大きくなるというよく知られた前提を踏まえれば、単語は無限ではないにしろ、有限の文字集合から多様に生成されうることが分かる。