今天上午去奥森健走,有朋友发来微信,认为象形文字学习困难,阻碍了识字率的提高,中文未来应该像韩文那样改成拼音文字。当时只顾低头狂走,没仔细想这个问题。 下午回家之后,刚好看到了《信息简史》第三章 enter image description here 这一章讲的是英语词汇不断产生的过程,以及词汇拼写的标准化的过程。看了才知道,英文单词并不是如我想象的那样一直有标准的拼写方法,而是最初的时候五花八门,一个词有很多不同的拼法,直到近代,随着出版物和交往的增多,才逐渐统一成标准的拼写方法。既然英语如此,我猜想其他拼音文字的发展历史大抵也是差不多的,拼音文字是靠语音来和含义建立联系的,因此只要拼出相同的发音,就表达了意思,至于字母序列是否相同不是重点。这一章还讲到,字母表顺序,以及按字母表排序的字典也是近代才出现的,古人看起来不需要给字母排序。这个事情看似不大,但是影响也是深远的,变成的人都知道无序的集合和有序的列表在使用上的区别吧。字母从无序变成有序,相当于为词汇建立了一个空间,由于每个字母都和其他字母有确定的位置关系,因此由这些字母组成的每个单词也都和其他单词有确定的位置关系。书中然后又讲到词典,对一个词的解释最初是罗列尽量少的和它含义最接近的词,只有在这种方法不奏效的时候才会用尽可能简短的句子来解释,因此从形式上看,每个词都是在它和其他词的关系中被定义的,这让我想起了Wordnet,难怪老外搞NLP要用Wordnet,我们搞中文NLP就不用这东东。拼音文字这种特点使得造词很容易,只要想出一个代表那个含义的发音,用字母把它拼出来,并得到一定的认可,就完成了造词的过程。所以英文中新词层出不穷,这对于眼下这个不断产生新概念的时代倒是颇为适合。象形文字在这一点上就没那么方便,象形文字的基本单元是形,表现在中文里,就是组成字的偏旁、部首,要创造一个形比创造一个发音要难很多,并且即使造出了形,还需要另外规定和说明它的读音,而不能从字上直接看出来,因此汉字的集合基本稳定,几十年也难得造出几个新字来。象形文字为了应付不断产生的新含义,在不能随意造字的情况下,只好以字为单位,进行二次组合,这类二次组合可以有好几种不同的方式,造成了汉字的构词方法多变,学习和掌握困难。特别是对外来语的吸收和翻译,汉字只好化字为音,用字音模仿拼音,完全丢掉了字形与含义的联系,字形所包含的信息变成无用的,甚至是起干扰作用的。这样看起来,象形文字对于快速变化的语言现象适应性明显较差。