大规模语言模型在模仿人类语言行为上正变得越来越娴熟，比如近期火热的ChatGPT，与人对话已经高度拟人化。

这也导致了一种心理倾向，也就是拟人主义——把这些系统看得比实际情况更像人类，并总是不自觉地使用“知道”、“相信”、“认为”等词汇，尤其是为了吸引流量的标题党，这进一步加剧了这种趋势。

但DeepMind资深科学家、伦敦帝国理工学院认知机器人学教授Murray Shanahan提醒我们，要想清楚LLM（Large Language Models）的工作方式，实际上与人类有很大的差别。

别把序列预测当认知

自BERT出现，一直到GPT-3、PaLM等大模型涌现后，不断有人为“出人意料的数据”赋予新的含义。

Murray Shanahan在这里要谈论的，不是模型如何随着训练数据集、参数规模的增大而突变，而是LLM的许多不可思议的能力只源于简单的序列预测。

维特根斯坦曾表示，人类的语言使用是一种集体行为，只有人类在社会活动的大背景下才具有意义。

无论是婴儿还是成年人，都是在通过与人类以及社会的互动语言来获得知识和信息。无论我们在发表演讲、发送电子邮件还是撰写论文，这些语言活动都是有意义的，因为我们居住在一个与其他语言使用者共享的世界里。

与此相对的是，LLM的工作机制与人类有很大不同。

技术上来说，LLM是基于大规模文本语料库统计分布的生成模型，基本的生成模式就一种，即“这是一个文本片段，根据你的语言统计模型，告诉我下一个文本片段是什么？”

如果我们问，“第一个在月球上行走的人是_____”，LLM会回答，“尼尔·阿姆斯特朗”。

但这个过程实际上是这样的——考虑到大规模文本语料库中的词语统计分布，哪些词语最有可能出现在“第一个在月球上行走的人是____”的后面，没错，最有可能出现的词语是“尼尔·阿姆斯特朗”。

同样，当我们问“魔戒被毁后，弗罗多·巴金斯回到了____”，LLM会回答“夏尔”。但这背后的实际过程是——考虑到大规模文本语料库中的词语统计分布，哪些词语最有可能出现在“魔戒被毁后，弗罗多·巴金斯回到了____”的后面，没错，最有可能出现的词语是“夏尔”。

对于人类而言，上述两个问题需要基于不同类型的知识进行推理。月球是真实存在的，“尼尔·阿姆斯特朗是真实的人；另一方面，魔戒、弗罗多·巴金斯、夏尔都存在于想象的虚拟世界中。第一个问题需要基于历史现状和物理可行性回答，比如人类目前的航天技术是否可以到达月球，但第二个不需要。

但对于LLM而言，这些思考过程都是不存在的，所有的问题都是一个序列补全任务而已。

所谓AI的“知识”、“理解”、“意识”并不存在。

正如《我们赖以生存的隐喻》中所述，人类在使用语言的时候，存在一个固有的倾向，就是把任何是人或非人对象的行为拟人化。

我们习惯于“服务器无法与网络对话”、“手表没有意识到时差”这样的表达，也就是用意图来理解事物交互的方便措辞。

这同样也适用于LLM。每个人都隐含地意识到，所谓“LLM的意识”不过是方便的表达。这一方面有助于语言的快速理解，另一方面也可能造成一种心理倾向。

图注：不需要任何示例，只是在所有任务（算术、符号、常识和其他逻辑推理）中使用相同的提示“让我们逐步思考” 任务，Zero-shot-CoT 就可以实现更好的多步推理。

图源：Large Language Models are Zero-Shot Reasoners

特别是我们了解到，在论文“Large Language Models are Zero-Shot Reasoners”中，当一个LLM仅仅通过被告知“一步一步地思考”就能提高其在推理任务上的表现时，就更容易将其看成具备人类思维能力。

LLM是“新的图灵机”？

当人类在回答“第一个在月球上行走的人是___”这个问题时，会采用多种手段。比如通过感官直接观察，与另一个人交流，查阅维基百科、书籍等。并且，我们可以在人类社会或知识库中寻找共识来评估某个答案(比如“尼尔·阿姆斯特朗”)的真伪。

但对于LLM，它的交互界面仅包含人类提供的文本提示，对于回答的真伪，它也仅有概率分布中的排序可以用于判断“相对真伪”。

当然，我们也不得不认真审视序列生成机制的通用性背后的秘密。

我们或许会联想到，图灵机仅具有很简单的规则，就在理论上具备了现代计算机的所有能力。类似地，元胞自动机、神经网络也具有理论上的通用近似能力。

人们也在猜想，尽管LLM只会做序列预测，但在此过程中，它已经悄然学会了更高层次的工作模式，涌现出了“知识”能力，最终或许能够实现通用认知能力。

但过分依赖单一的推理机制的迭代会导致的问题是，其在解决一些看似简单的任务上也需要耗费大量的计算。因此，这些理论模型通常只适合确定理论边界，或者说每一类算法只适合高效地解决特定问题。在实际应用中，通常是采用基于具备不同先验偏置的多种系统的联合决策。

另一方面，什么是知识？知识仅仅是语言就能承载的吗？LLM又如何能以人类认可的方式给出准确的决策？

我们曾提到，语言仅在人类社会的交互中有意义，知识实际上存在于人类社会对语言的使用和解释行为中。而这种交互的可行性存在大量的前提，仅就最核心的一点，即“对方是和我一样的人类”，就足以让人类努力了几千年仍进展甚微。

同样，LLM要学会准确地决策，就需要嵌入现实世界的人类社会中与人类、社会系统进行交互，并且能够在自身属性上与人类毫无二致，也就是所谓的“具身学习”，这至少在近期来看是不可能的。

那么，长期来看，我们如何让LLM一步一步地拥有人类的思维机制呢？

走了捷径的LLM

视觉-语言模型（如DALL-E）的出现表明LLM的“拟人化”至少不是毫无希望。但这些模型的工作方式仍然存在机器学习的固有通病，也就是只有关联能力，没有因果推断能力，LLM是因为走了捷径才拥有了表面上的认知能力。

人类社会的知识凝结了大量的交互历史，是经过成千上万次试错，数百万年的遗传，数万年的符号继承，数百年的科学与因果革命，以及数不清的语言沟通与冲突，而从近乎随机的世界中收敛出了有限的生存规则。

因此，这些知识在指向性、因果性、层级性、抽象性、信息量上，都不是只会做有成百上千个选项的填空题的LLM可比拟的。

也就是说，在知识表达能力上，人类其实远远超出了LLM。LLM只有它自己，缺少具备人类社会复杂度的世界模型，其经验吸收与人类历史相比有如沧海一粟，其自身的复杂性与每个人不可比，更与整个人类社会不可比。

而每一个人的知识，都由整个人类社会以及其成员、符号系统、物质基础、知识库等来表达和解释。

图注：Chain-of-thought prompting使大型语言模型能够处理复杂的算术、常识和符号推理任务。

图源：Chain-of-thougt prompting elicits reasoning in large language models

与因果相对的不依赖数据和统计的思维方式是逻辑。而近期研究比如论文“Chain-of-thougt prompting elicits reasoning in large language models”表明，用于逻辑推理的LLM表明其不但有足够的推理能力，还能展示中间推理步骤。但人类的推理依赖的是不证自明的公理，公理的确立又不可避免地需要经过经验的沉淀。

因此，与其对LLM滥用拟人主义措辞，搞清楚LLM是怎么工作的，LLM的能力边界，以及怎么能让它更好地工作，才是明智的做法。

参考链接：

https://arxiv.org/abs/2212.03551

https://www.reddit.com/r/agi/comments/zi0ks0/talking_about_large_language_models/

声明：本站文章，有些原创，有些转载，如发现侵权侵请联系删除。本站所有原创帖均可复制、搬运，开网站就是为了大家一起乐乐，不在乎版权。对了，本站小水管，垃圾服务器，请不要采集，吐槽君纯属用爱发电，经不起折腾。

{{userData.name}}已认证

别再吹ChatGPT“神”了，DeepMind科学家：徒有其表的序列预测器

别把序列预测当认知

LLM是“新的图灵机”？

走了捷径的LLM

【技术转载】三步快速搭建Typora图床(基于SM.MS+PicGo)

【技术贴转载】PVE安装OpenWRT+群晖NAS+Win，打造AIO！