别再吹ChatGPT“神”了,DeepMind科学家:徒有其表的序列预测器

大规模语言模型在模仿人类语言行为上正变得越来越娴熟,比如近期火热的ChatGPT,与人对话已经高度拟人化。

这也导致了一种心理倾向,也就是拟人主义——把这些系统看得比实际情况更像人类,并总是不自觉地使用“知道”、“相信”、“认为”等词汇,尤其是为了吸引流量的标题党,这进一步加剧了这种趋势。

但DeepMind资深科学家、伦敦帝国理工学院认知机器人学教授Murray Shanahan提醒我们,要想清楚LLM(Large Language Models)的工作方式,实际上与人类有很大的差别。

别再吹ChatGPT“神”了,DeepMind科学家:徒有其表的序列预测器

别把序列预测当认知

自BERT出现,一直到GPT-3、PaLM等大模型涌现后,不断有人为“出人意料的数据”赋予新的含义。

Murray Shanahan在这里要谈论的,不是模型如何随着训练数据集、参数规模的增大而突变,而是LLM的许多不可思议的能力只源于简单的序列预测。

维特根斯坦曾表示,人类的语言使用是一种集体行为,只有人类在社会活动的大背景下才具有意义。

别再吹ChatGPT“神”了,DeepMind科学家:徒有其表的序列预测器

无论是婴儿还是成年人,都是在通过与人类以及社会的互动语言来获得知识和信息。无论我们在发表演讲、发送电子邮件还是撰写论文,这些语言活动都是有意义的,因为我们居住在一个与其他语言使用者共享的世界里。

与此相对的是,LLM的工作机制与人类有很大不同。

别再吹ChatGPT“神”了,DeepMind科学家:徒有其表的序列预测器

技术上来说,LLM是基于大规模文本语料库统计分布的生成模型,基本的生成模式就一种,即“这是一个文本片段,根据你的语言统计模型,告诉我下一个文本片段是什么?”

如果我们问,“第一个在月球上行走的人是_____”,LLM会回答,“尼尔·阿姆斯特朗”。

但这个过程实际上是这样的——考虑到大规模文本语料库中的词语统计分布,哪些词语最有可能出现在“第一个在月球上行走的人是____”的后面,没错,最有可能出现的词语是“尼尔·阿姆斯特朗”。

同样,当我们问“魔戒被毁后,弗罗多·巴金斯回到了____”,LLM会回答“夏尔”。但这背后的实际过程是——考虑到大规模文本语料库中的词语统计分布,哪些词语最有可能出现在“魔戒被毁后,弗罗多·巴金斯回到了____”的后面,没错,最有可能出现的词语是“夏尔”。

对于人类而言,上述两个问题需要基于不同类型的知识进行推理。月球是真实存在的,“尼尔·阿姆斯特朗是真实的人;另一方面,魔戒、弗罗多·巴金斯、夏尔都存在于想象的虚拟世界中。第一个问题需要基于历史现状和物理可行性回答,比如人类目前的航天技术是否可以到达月球,但第二个不需要。

但对于LLM而言,这些思考过程都是不存在的,所有的问题都是一个序列补全任务而已。

所谓AI的“知识”、“理解”、“意识”并不存在。

别再吹ChatGPT“神”了,DeepMind科学家:徒有其表的序列预测器

正如《我们赖以生存的隐喻》中所述,人类在使用语言的时候,存在一个固有的倾向,就是把任何是人或非人对象的行为拟人化。

我们习惯于“服务器无法与网络对话”、“手表没有意识到时差”这样的表达,也就是用意图来理解事物交互的方便措辞。

这同样也适用于LLM。每个人都隐含地意识到,所谓“LLM的意识”不过是方便的表达。这一方面有助于语言的快速理解,另一方面也可能造成一种心理倾向。

别再吹ChatGPT“神”了,DeepMind科学家:徒有其表的序列预测器

图注:不需要任何示例,只是在所有任务(算术、符号、常识和其他逻辑推理)中使用相同的提示“让我们逐步思考” 任务,Zero-shot-CoT 就可以实现更好的多步推理。

图源:Large Language Models are Zero-Shot Reasoners

特别是我们了解到,在论文“Large Language Models are Zero-Shot Reasoners”中,当一个LLM仅仅通过被告知“一步一步地思考”就能提高其在推理任务上的表现时,就更容易将其看成具备人类思维能力。

LLM是“新的图灵机”?

当人类在回答“第一个在月球上行走的人是___”这个问题时,会采用多种手段。比如通过感官直接观察,与另一个人交流,查阅维基百科、书籍等。并且,我们可以在人类社会或知识库中寻找共识来评估某个答案(比如“尼尔·阿姆斯特朗”)的真伪。

别再吹ChatGPT“神”了,DeepMind科学家:徒有其表的序列预测器

但对于LLM,它的交互界面仅包含人类提供的文本提示,对于回答的真伪,它也仅有概率分布中的排序可以用于判断“相对真伪”。

当然,我们也不得不认真审视序列生成机制的通用性背后的秘密。

别再吹ChatGPT“神”了,DeepMind科学家:徒有其表的序列预测器

我们或许会联想到,图灵机仅具有很简单的规则,就在理论上具备了现代计算机的所有能力。类似地,元胞自动机、神经网络也具有理论上的通用近似能力。

人们也在猜想,尽管LLM只会做序列预测,但在此过程中,它已经悄然学会了更高层次的工作模式,涌现出了“知识”能力,最终或许能够实现通用认知能力。

别再吹ChatGPT“神”了,DeepMind科学家:徒有其表的序列预测器

但过分依赖单一的推理机制的迭代会导致的问题是,其在解决一些看似简单的任务上也需要耗费大量的计算。因此,这些理论模型通常只适合确定理论边界,或者说每一类算法只适合高效地解决特定问题。在实际应用中,通常是采用基于具备不同先验偏置的多种系统的联合决策。

另一方面,什么是知识?知识仅仅是语言就能承载的吗?LLM又如何能以人类认可的方式给出准确的决策?

我们曾提到,语言仅在人类社会的交互中有意义,知识实际上存在于人类社会对语言的使用和解释行为中。而这种交互的可行性存在大量的前提,仅就最核心的一点,即“对方是和我一样的人类”,就足以让人类努力了几千年仍进展甚微。

别再吹ChatGPT“神”了,DeepMind科学家:徒有其表的序列预测器

同样,LLM要学会准确地决策,就需要嵌入现实世界的人类社会中与人类、社会系统进行交互,并且能够在自身属性上与人类毫无二致,也就是所谓的“具身学习”,这至少在近期来看是不可能的。

那么,长期来看,我们如何让LLM一步一步地拥有人类的思维机制呢?

走了捷径的LLM

视觉-语言模型(如DALL-E)的出现表明LLM的“拟人化”至少不是毫无希望。但这些模型的工作方式仍然存在机器学习的固有通病,也就是只有关联能力,没有因果推断能力,LLM是因为走了捷径才拥有了表面上的认知能力。

人类社会的知识凝结了大量的交互历史,是经过成千上万次试错,数百万年的遗传,数万年的符号继承,数百年的科学与因果革命,以及数不清的语言沟通与冲突,而从近乎随机的世界中收敛出了有限的生存规则。

别再吹ChatGPT“神”了,DeepMind科学家:徒有其表的序列预测器

因此,这些知识在指向性、因果性、层级性、抽象性、信息量上,都不是只会做有成百上千个选项的填空题的LLM可比拟的。

也就是说,在知识表达能力上,人类其实远远超出了LLM。LLM只有它自己,缺少具备人类社会复杂度的世界模型,其经验吸收与人类历史相比有如沧海一粟,其自身的复杂性与每个人不可比,更与整个人类社会不可比。

而每一个人的知识,都由整个人类社会以及其成员、符号系统、物质基础、知识库等来表达和解释。

别再吹ChatGPT“神”了,DeepMind科学家:徒有其表的序列预测器

图注:Chain-of-thought prompting使大型语言模型能够处理复杂的算术、常识和符号推理任务。

图源:Chain-of-thougt prompting elicits reasoning in large language models

与因果相对的不依赖数据和统计的思维方式是逻辑。而近期研究比如论文“Chain-of-thougt prompting elicits reasoning in large language models”表明,用于逻辑推理的LLM表明其不但有足够的推理能力,还能展示中间推理步骤。但人类的推理依赖的是不证自明的公理,公理的确立又不可避免地需要经过经验的沉淀。

因此,与其对LLM滥用拟人主义措辞,搞清楚LLM是怎么工作的,LLM的能力边界,以及怎么能让它更好地工作,才是明智的做法。

参考链接:

https://arxiv.org/abs/2212.03551

https://www.reddit.com/r/agi/comments/zi0ks0/talking_about_large_language_models/

声明:本站文章,有些原创,有些转载,如发现侵权侵请联系删除。本站所有原创帖均可复制、搬运,开网站就是为了大家一起乐乐,不在乎版权。对了,本站小水管,垃圾服务器,请不要采集,吐槽君纯属用爱发电,经不起折腾。

给TA打赏
共{{data.count}}人
人已打赏
技术宅

【技术转载】三步快速搭建Typora图床(基于SM.MS+PicGo)

2022-12-17 16:24:48

技术宅

【技术贴转载】PVE安装OpenWRT+群晖NAS+Win,打造AIO!

2022-12-17 17:28:45

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索