首页 > 汽车笔记 > 汽车笔记 > 汉语是不是AI研究的优势工具?复旦教授给出答案

汉语是不是AI研究的优势工具?复旦教授给出答案

发布时间:2025-06-14 17:08:35来源: 13663887898

20世纪50年代,现代语言学的重要理论之一——依存语法诞生,其核心思想是通过分析词与词之间的依存关系(如主谓、动宾、修饰等)来揭示句子的结构模式和语义联系。

70多年后的今天,它从冷门变成“显学”,为人工智能(AI)处理自然语言提供了清晰的理论框架和实践工具。随着AI技术向“认知智能”发展,依存语法与深度学习的结合(如将语言学先验知识融入神经网络)成为提升AI语言理解能力的重要方向。

前不久加盟复旦大学的国际知名计量语言学和依存语法研究专家刘海涛,凭借在计量依存语法等领域的研究,连续11年入选爱思唯尔“中国高被引学者”榜单。

在“教机器说人话”的人工智能发展历程中,文科能够助力几何?汉语是不是AI研究的优势语言?初夏的一个上午,记者走进复旦大学外文楼5楼办公室,专访了身穿红蓝格子衬衫的刘海涛教授。

作为一个母语为汉语的中国人,我们很愿意听到对它的赞美。但作为观察人类语言系统规律的研究者,可能要更谨慎、客观地来看待。

周末周刊:您是一位语言学研究专家,研究内容是人类语言中关于句法的普遍规律,而这也可能成为开启人工智能的钥匙之一。DeepSeek崛起之后,有一种声音认为,汉语在研究人工智能的领域中是一种优势工具,能否站在语言学家的立场谈谈您的看法?

刘海涛:这个问题好像给我挖了个“坑”。我也注意到这个说法。作为一个母语为汉语的中国人,我们很愿意听到对它的赞美。但作为观察人类语言系统规律的研究者,可能要更谨慎、客观地来看待。

我查了一下这个说法的来源和根据。有趣的是,检索到的很多相关信息,在很不起眼的地方都标注着“内容由AI生成”。

他们的主要依据有三个:一是汉语相比其他拼音文字来说,文字比较独特。二是汉语是孤立语(特点是词的形态不会随词的语法功能变化)。三是汉语文本的信息熵大,即表达同样内容时,采用汉字的文本最短。

从语言科学的角度来讲,语言和文字不能混为一谈,字和词也不是一回事。从类型学的角度来讲,汉语也不是唯一的孤立语。作为孤立语言来讲,它们既有优点也有缺点,和其他类型的语言一样。

能不能扬长避短,充分利用这些汉语的优势构造出一个更好的我们所希望的人工智能,可能是更值得关注的。以我目前对于大模型的粗浅了解来看,目前广泛采用的大数据+深度学习的AI技术还难以充分利用以上三个特点。

而且,根据团队这些年来基于几十种语言真实语料进行的语言规律的发现和研究,我们看到汉语与人类其他语言之间的共性是多于个性的。因为人类语言的普遍性是由人的生物意义的普遍性来决定的。

不过,在汉语与人类其他语言的比较过程中,我们确实发现了汉语的一个特殊之处,这也是我们在这个方向坚持研究的驱动力之一。

哈德森开玩笑说:你把这个搞清楚了,肯定就名扬全球了。我说我不是很想名扬全球,但这个事情确实值得去搞清楚。

周末周刊:您所说的汉语的特殊之处是什么?

刘海涛:这可能要从依存语法中的一些基本概念说起。依存语法是建立在依存关系基础上的一个现代语法理论。这个理论的一个核心想法是,句子中的词不是孤立的,它和这个句子中的其他词是有关系的,我们把这种关系叫作词之间的依存关系。

比如,在“我吃了一个红苹果”这个句子中,“我”和“吃”之间有一个主语关系,“吃”和“苹果”之间有一个宾语关系。通过这样一些关系,我们就能把一个句子连成一个整体。

这种联系对于我们理解和生成语言的意义何在呢?依存语法的奠基人、法国语言学家泰尼埃讲过这样一句话:“造句就是在一群不定型的词之间建立起一个整体,成为一个整体的各种依存关系,从而赋予这一堆不定型的词以生命;反之,理解一个句子,就是要找出连接句子中各个不同词之间的所有依存关系。”

显然,人的语感单凭一个句子是形成不了的,而是需要许许多多的句子。计算机也是如此。为了发现人类使用语言的句法规律,我们需要千千万万个经过句法分析的句子。对一种语言中大量真实话语进行依存语法标注后的数据,就形成了句法树库。树库不仅是发现句法规律的重要资源,也是机器学习人类语言知识的宝贵源泉,而树库标注是人类语言知识外化的过程。

树库的重要性也可从普遍依存关系(Universal Dependencies)项目的发展看出,该项目可能是目前人工智能领域为数不多的需要语言学家参与的项目。截至2025年5月,该项目已有179种语言的319个可供人工智能领域使用的依存句法标注语料库(树库)。

有了树库,就可以对人类语言进行多层次多角度的分析研究,这种数据驱动的方法所发现的语言的概率性规律,有益于构建可解释的AI,因为大语言模型AI的本质差不多就是“建模自然语言的概率分布”。在我们研究的几十种语言树库里,小的大概有两三万词,大的有几百万词,如此不带感情地把人类的各种语言都抽象出来,就可以形成人类语言的趋势、规律和模式。

这种“抽象”,可以让我们更清晰地看到一种语言的“依存距离”。依存距离指句子中两个有句法关系的词之间的线性距离,其大小取决于间隔词的数量。上面这个例句中,动词 “吃”和宾语“苹果”之间间隔了“了”“一”“个”以及“红”这4个词,因此,它们之间的依存距离是4。

依存距离看起来简单,但实际上,涉及很多不简单的东西。比如,我们在说一句话的时候,说出来的词,怎么排序呢?如果语义密切相关的词相隔太远,这个词就很难找到和它语义直接相关的那个词,所以两个有关系的词一旦在句子中距离较大,比如超过四五个词,不仅你自己记不住,听话的人也难以理解。因此,人在说话时,由于受人类记忆容量的约束,会遵循一种“依存距离最小化”的规律。

所谓依存距离最小化就是指,在造一个句子的时候,我们把句法或语义上相关的词尽可能地靠得近一点,从而使它们之间的“依存距离”尽可能短。

大概在20多年前,我用20种语言的依存树库,发现了“依存距离最小化”可能是人类语言的一种普遍规律。有趣的是,在这20种语言中,汉语的依存距离最大。

当我把这个结果告诉同样是依存语法研究的专家、英国的哈德森(Hudson)教授时,他很激动。在我写的《依存语法的理论与实践》一书的序言中,他这样写道:“刘海涛的研究发现不同语言之间的依存距离是有明显差异的,这是一个极为重要的发现,应当激发更多的后续研究。为什么两种语言的工作记忆容量会如此不同?是不是因为汉语词语更容易记忆,所以以此可以激活更多的词语,或者因为说中国话的人有更大的工作记忆容量?”

后来哈德森开玩笑说:你把这个搞清楚了,肯定就名扬全球了。我说我不是很想名扬全球,但这个事情确实值得去搞清楚。

一系列后续研究表明,哈德森的这些问题不好回答,目前可以肯定的是,汉语的依存距离无论换何种语料都是大于英语的,尽管我们也发现了一些影响依存距离的因素,如汉语的虚词会增加依存距离等,但要回答“讲汉语的人是不是工作记忆就大”这类涉及语言会影响认知结构的重大问题,还需要更多学科的人来合作探究。

这个例子说明,有时候,我们从一个小切口入手,能够引出一些意想不到的东西,而这些东西可能比你原先想要研究的东西更重要。这可能也是科学研究的乐趣之一。

数据与智能的关系对于传统语言学而言,是非常陌生的一个话题。事实上,正是这种陌生使主流语言学与这个时代渐行渐远。

周末周刊:在您看来,人工智能中的“语言学元素”约占多少?语言学中的“AI元素”又是如何产生的?

刘海涛:毫无疑问,人工智能是一个涉及多种学科的交叉学科。在一本名为《大数据入门》的书中,提到了有助于构建AI的学科,其中包括计算机、数学、医学、心理学、工程和语言学。

应该说,在目前的数基智能中,在这几个学科中,起主要作用的是计算机、工程和数学。有一些学科,比如语言学,更多的是一种不提似乎说不过去的东西,是绕不开的。因为语言不仅是智能的窗口,也是这次数智革命的引爆点和人工智能破解人类软件系统的切入点。

但传统意义的语言学对数基智能的价值和意义很小,因为数据与智能的关系对于传统语言学而言,是非常陌生的一个话题。事实上,正是这种陌生使主流语言学与这个时代渐行渐远,也就有了“解雇一个语言学家,系统性能会更好一些”的说法。当然,也有诸如“每当你雇佣一位受过良好训练的语言学家时,你的树库就会更好一些”等更积极的说法。

换言之,人工智能一定是需要语言学的,但需要的可能不是脱离人类日常语言的语言学,而是能从大量日常语言材料中发现语言系统运作的统计规律的语言学,因为语言是一个由人驱动的概率系统。

总的说来,数据、概率、统计、系统、规律等可能是数智时代需要的“AI元素”。这样一来,语言学家需要尽快在自己的研究中引入这些“元素”。与其他语言学理论语法相比,依存语法从一开始就比较重视真实的语言、人们在日常生活中使用的语言。这可能也是它能够在数智时代焕发青春的一个主要原因,因为人工智能要面对的是人类使用的语言,而不是语言研究者们为了验证自己的假说或理论造出来的各种句子。

我关于“依存距离最小化”研究的文章,由于所采用的数据驱动的方法与当时认知科学习惯的方法有很大不同,因此发表之路很艰难,最终发表在2008年的《Journal of Cognitive Science(认知科学杂志)》上,如今已成为该刊被引用最多的文章。这说明,AI需要语言学,但需要的是与时俱进的语言学,需要的是能反映人类语言系统真实运作规律的语言学。