由中国社会科学院中国少数民族语言研究中心和香港科技大学人文社会科学学院联合开发的《汉藏语同源词研究·词汇语音数据库》现已按计划完成全部数据采集和软件研制工作,数据库软件系统名称定为“汉藏语言数据检索系统”,是一套具有自主知识产权的软件。日前该套数据库软件已实际投入了科研应用。 该数据库是中华社科基金(99BYY020)和香港研究资助局资助(HKUST6097/00H)的《汉藏语同源词研究》课题核心内容之一,课题主持人为香港科技大学人文社会科学学院丁邦新教授和中国社会科学院中国少数民族语言研究中心孙宏开教授。该项计算机数据库检索软件由中国社会科学院民族研究所江荻教授设计、研制,课题组有20多位专家学者参与整理、提供、核对数据,前后耗费近5年时间制作完成。 两个多世纪以来,亚洲大陆和太平洋区域的族群关系和语言关系一直是人类学家、考古学家和语言学家关注的焦点,而其最直接的证据很大程度上依赖于人们对各个族群语言的深入了解。自十八世纪人类学家提出汉藏语系这个概念以来,许多代语言学家对于汉藏语系语言的历史发展、谱系分类、各个历史阶段的面貌,进行了有益的探索,但至今仍然分歧很大。汉藏语系是一个有数百种语言、10多亿人口使用的大语系,仅就汉藏语系的分类问题而言,目前基本上有3种主要的分类意见:第一,二十世纪三十年代,著名语言学家李方桂提出,汉藏语系包括4个语族,即汉语、侗台语、苗瑶语、藏缅语,这一观点得到罗常培、傅懋勣、马学良等老一辈语言学家的支持,中国境内多数学者基本持这一观点。第二,二十世纪七十年代美国学者白保罗(Paul Benedict)提出汉藏语系仅包括汉、藏缅两个语族,把李方桂划分在汉藏语系中的侗台、苗瑶两个语族归入澳泰语系,这一观点得到欧美多数语言学家的赞同,在中国,也有部分学者支持。第三,二十世纪九十年代以来,法国学者沙加尔(Laurent Sagart)提出南岛语(澳台语系中的一个语族)和汉语有亲缘关系,中国学者邢公畹支持这一观点,并进一步提出把南岛语、汉藏语、南亚语归为一个大语系,称华澳语系。 产生上述分歧意见的原因是多方面的,其中主要原因之一是对这个语言集团同源关系的认定问题,因此全面开展汉藏语同源词研究,区分同源词和借词,是解决分歧意见的关键所在。 同时,此项研究的意义还在于对上古汉语面貌的认识、汉语史的研究、汉藏语史乃至史前史的研究产生重大的影响,也对历史上操汉藏语系语言居民的民族关系的认识产生一定影响。 现在这个包括汉藏系语言、南岛系语言、南亚系语言以及其他相关语言的大型数据库全面完成,相信可以为语言学家提供一个施展才智、追根溯源,全面深入揭示该地区人类发生发展面貌和语言之谜的技术平台。 多年来学者们研究语言,所依赖的语言材料零散不一,各自为阵。排起卡片来十分辛苦,却所获不多,且所据有限。现在这个数据库检索系统完成了,大概算得上语言学界一次不大不小的工具革命,我们终于从手工作坊跨到了信息机械化的工场。 该数据库检索系统共收集国内外最重要的语言或方言125个。其中包括汉语12个方言点数据和李方桂、高本汉等学者的中上古汉语5项构拟系统。中国境内藏缅语族藏语支9项,羌语支语言13项,景颇语支语言7项,缅语支语言9项,彝语支语言15项,境外藏缅语族语言7项;苗瑶语族苗语支11项,瑶语支2项,畲语支1项;壮侗语族台语支6项,侗水语支3项,黎语支2项,仡央语支1项;南亚语系孟高棉语族6项;南岛语系台湾语族4项,美波语族12项;汉藏语构拟1项;南岛语构拟3项。除此之外,系统中还装入了汉语与民族语言或者民族语言与汉语对照词典12部。当然,这仅仅是基于历史比较研究的需要,经过精选的有广泛代表性的一部分语言,我们仍然希望今后有条件陆续扩大这个数据库的语言数量。 值得说明的是,本系统是迄今为止国内外开发的数据量最大,数据最齐整、完善,牵涉语系、语族、语支、语言最多的研究型语音词汇数据库系统,也是检索功能最为强大的软件系统。譬如,语言学者可以依据中文、英文以及任一种所选民族语言进行检索,可以要求计算机将全部选定语言按指定顺序排列检索,或者按照语族语支分类检索,甚至还可以要求只输出符合条件的数据而排除不符合条件数据;可以一次只检索一个语言,也可以同时检索上百种语言;语言学家可以要求以一种语言为核心而同时输出多种相关对照语言,即可进行语言描写,也可进行语言历史比较。而更有意思的是,检索系统还提供了语义分类检索,关注语义研究的学者可以选定天文地貌现象或者植物动物现象遍查各种语言的表述方式,系统设置的15大类40余个小类语义分类基本包括了人类对世界知识的表述内容。功能更为强大的检索方式是系统精心设计的组合检索,语言学者可以要求系统按照某种声母类型或者韵母类型进行检索,同时也可指定只对某个音节进行检索,或者只对基本词根进行检索;关注声调的学者可以要求检索浊音声母与声调的关系,检索松紧元音与声调的关系,关注介音的学者,可以从一种语言不同介音来观察其他语言声母或韵母的对应关系;而关注基本核心词的学者,可以从这个系统中了解斯瓦迪史(Swadish)200基本核心词在各种语言中的反映,同时还可以了解同样200核心词在汉藏语言、藏缅语言、古汉语的分布情况,并将之应用于各种检索语言中。总之,组合检索可以由学者自己定义检索条件,灵活性与实用性达到完全可满足各类需求。 又譬如,进入数据库的数据,经过了反复的核对,具体语言的数据,都由熟悉该语言的专家,对每个词的词根位置、词源、词缀(前缀、中缀、后缀)进行了标注,对词的各音节的声、韵、调进行了切分,一方面,可以避免在比较研究中出现“拉郎配”的任意现象,同时,也有利于用计算机进行比较研究,包括声韵调对应关系的研究等。 为了方便学者的应用,设计者还为学者提供了多项辅助工具,你可以调用每种语言的音系备查,免去查找书籍之虞,你也可以时刻浏览某种语言的基本概况,地理分布、民族属性、语言人口,以及所属语系语族语支的身份。熟悉民族语言或者汉语方言的学者也可以利用系统提供的音标键盘指南输入读音形式进行检索。 当系统应用于网络或者教学,则系统还提供超级管理员功能,对用户进行管理,对使用记录进行管理和了解,同时还可以对语料进行维护和更新。 总之,该系统还有多种多样的功能有待学者们继续发掘,其效用可能不仅令你满意,还会令你惊讶。我们从课题成立的一开始就承诺,这是一个开放性的数据库。所谓开放性,其一,是指数据库包括的各种数据,可以不断的补充、进一步完善,以达到更加完美的程度。其二,凡是对汉藏语系历史比较研究有兴趣的单位或个人,都可以通过一定的方式部分或全部使用这个数据库。 最后我们要严肃地指出,本数据库系统的任何授权使用人应该遵循版权人所声明的使用规则和约定,尊重研制人的知识产权。 |