许多语言及方言的归属问题一直是备受争议的问题。传统的语言分类方法,凭经验作定性分析,却无法作语言之间亲缘距离关系程度的数量描述。因此相关结论的可信度均值得重新商榷。《中国的语言及方言的分类》的目的是根据计算语言学的原则,利用计算器手段以及分子人类学和词源统计法等先进方法,对汉藏语系的语言及方言的发生学关系做出科学的测定和分类。运用距离法和特征法来描述语言之间亲缘距离的程度,全面且系统地评价汉藏语系的语言及方言的亲缘关系,从而作出科学的分类。所使用的数理树图可以从整体上把握所有语言的相互关系,并可以发现一些有意义的理论问题,例如预测不同词的变化速度和替换方向以及计算出汉藏语系的语言及方言分裂的年代。《中国的语言及方言的分类》的意义在于建立起汉藏语系的语言及方言的分类的数学模型,建立基于语言遗传信息的系统树与基于生物遗传标记的系统树的亲缘距离以及地理分布距离的比较研究基础。这是运用计算语言学结合遗传学来处理中国语言信息的开创性研究。
《中国的语言及方言的分类》运用词源统计分析法及分子人类学方法对汉藏语系的语言及方言作出数理分类以及亲缘阐系程度的描述,并通过树枝长短来表示距离关系,显示汉藏语系的语言及方言的类簇和分级层次。同时计算出汉藏语系诸语言的时间深度,并分析其形成过程。
研究发现,一种语言中不同的词汇范畴具有不同的变化程度,即使是基本词汇的变化程度也不能假定为一种相同的值的理论。斯瓦迪士(Swadesh)的词表虽已成功适用于世界上上千种语言(“罗赛塔计划”Rosetta Project),但却无法用中国的语言来验证。本研究认为斯瓦迪士的100词可以用作汉藏语系的语言及方言分类的标准。《中国的语言及方言的分类》具有语言理论上的贡献。
从分类的结果看,更正了一些传统的错误分类,对解决学术界长期以来因传统分类引起的争论,提出了更科学的方法和结论:如畲语的归属;研究证明白语、羌语、土家语应当分别独立为一个语支;临高话分别跟黎语和壮语的亲缘关系最近,而传统的分类都认为临高话只跟壮语关系最近,而与黎语关系最远,临高话与黎语体现为不同语支之间的关系。
从语言进化树形图的结构变化,提出应当重新检讨传统的西方历史语言学的谱系分类的框架,即仅仅只在一个语言的平面上,人为地划分语族、语支、语言、方言,这种方法太过于简单,并已过时,体现不出语言的分屑和整体结构。从树图看,语支这一层次不是固定不变的,而是呈动态状态,并且是多层次的,即不止一个语支,树图的每个分离点都可等同于“语支”的位置。语言进化树形图能够改进传统的分类理论,更好地反映语言的分层和整体之间的相互关系。
我们采用每千年保留率的平均值的计算方法,不仅仅计算出每对语言的分离时间,而且计算出树图各个分离点的分离时间。我们的计算结果不同于许多语言学家已有的看法。其结论和考古学与人类学的最新研究成果一致。希望揭示东亚语言与民族演化进程的特殊性以及历史比较法的局限性。
《中国的语言及方言的分类》还认为南岛语族生活在以华南为中心的广大区域,约4000 B.P.开始分离,并经东南沿海或西南——中南半岛向台湾及南洋群岛扩散。
研究发现南方汉语方言具有“地域共同传统”,即一个地域内的许多不同的区域性文化,彼此之间的交往对于形成这个地域的共同特征具有很大作用。语言学主流研究中的“汉民族中心主义”理念已经过时。
传统的历史语言学主要依据由专家知识出发的系统化经验法则,重建“想象”中的古代语言,但无法直接验证。《中国的语言及方言的分类》的分类与传统分类相比较,虽然材料和方法不同,但分类的结果与传统分类大致相同,并能发现传统定性分类的缺陷。《中国的语言及方言的分类》的研究方法与传统语言学研究不同在于:这种方法可以用公式来推导,并可反复使用和验证。这对解决长期以来的学术界因为传统的分类而产生的争论,提供了一个数理分类的样品。而这种成功的范例的研究方法,可推广至更多的语言及方言的分类。
^ 收 起