17c10路线一起草:糖心app是不是诈骗-深观察|虚构、造假与欺骗:AI为何也会“耍心眼”
这两年,各类生成式人工智能,如大语言模型、聊天机器人等给人们带来了新鲜的体验和很大的帮助。但是人们在惊叹其强大的同时,也发现这些AI会虚构、造假与欺骗。比较典型的是,有人向AI询问“自己”,结果一眼就找出了不少谬误。
需要注意的是,尽管这也属于AI造假,但与之前舆论所议的AI造假有所不同。之前是有人利用AI造假,以达到欺骗目的,如利用名人头像和语音造假骗钱;现在是AI自己在生成内容时造假,可称为“AI自我造假”。

“AI幻觉”与“机器欺骗”
目前可以观察到的是,几乎所有的生成式AI都会自我造假。如Apollo Research的报告显示,先进AI模型能在特定情况下对人类“耍心眼”,复旦大学的一项研究也佐证了相关模型的欺骗性和自主意识苗头。
AI自我造假有多种形式和表现。一是给出的参考文献、作者、文章标题、时间、年代等不符合实际,可以统称为形式造假或非内容造假;二是对生成的内容进行胡编乱造。对前一类问题,有研究统计过,伪造率在30%-90%之间,而对内容的伪造尚未有准确统计,但是比例不会少。
典型的例子是,2023年6月,美国律师史蒂文·施瓦茨接受委托,为一名搭乘哥伦比亚航空公司飞机的乘客辩护,后者因一个金属餐盘砸伤腿而索赔。施瓦茨使用ChatGPT搜索,在法庭上引用了6个并不存在的法律案例。后来被法庭指出后,施瓦茨承认是ChatGPT杜撰了一切,并向法官道歉,被罚5000美元。
AI自我造假当然意味着AI有缺陷,具体表现为几个方面:一是“幻觉”;二是“机器欺骗”;三是训练技术不完善。尽管幻觉这一术语尚未得到学术界的统一认可,但是幻觉和机器欺骗其实是一个问题的两个方面。
幻觉是指AI模型生成的内容在逻辑上自洽但与现实不符,表现为虚构事实、人物、事件等,捏造历史事件细节或提供不存在的科学假说或理论。机器欺骗是指AI模型生成的内容逻辑自洽,或看似合理,但同样是现实中不存在的事物或现象,如虚构不存在的学术论文、法律案件,或对自身能力进行夸大描述等。
无论是形式或内容上的AI自我造假,都会歪曲或重新解构事实、真相、理念和价值判断,让人们对世界的真实性产生误解,并产生极为严重的后果。
而且,AI自我造假的危害,可能并不限于经济损失和信息污染,还有可能阻碍AI自身的发展。毕竟,人们很难相信那些说“狼来了”的撒谎者。

AI的理解与人的理解并不一致
AI自我造假的根本原因在于,人类研发生成式AI的方式和机制本身就有不足。虽然目前的研究还不足以揭示AI为何自我造假,但一些研究和观察提供了某些线索。
生成式AI其实并不知道它生成和输出的内容是什么,因为它们只是依据训练数据中的内容、数据和模式,并且根据人类测试者反馈等技术进行一定微调后,对提问者提出的内容给出在统计上可能性较高的回复,或提供一个产品。
这也涉及生成式AI模型对自然语言的理解。尽管训练大语言模型时,采用的是自然语言来预测短语中下一个可能出现的词语,如符合语法,或者说被AI所“理解”,但是AI的理解与人的理解并不一致。
因此,AI生成的内容要么是不合逻辑也不符合事实,要么是符合逻辑但不符合事实。
这个问题其实也对人类提出了新的挑战:生成式AI确切的内部工作原理对人而言是神秘的,研发生成式AI的研究者并不很清楚生成式AI的深层工作原理。这也被视为生成式AI的两面性:优点是除了能回答很多问题并帮助人们生成各种文本、视频外,还具有创造性,但是这种创造性可能是人们难以控制的,至少在目前看来是如此。
目前,人们用以开发生成式AI的训练的方式,也决定了它们可能自我造假。
大语言模型是通过压缩数据来工作。在训练过程中,这些模型被投喂了上万亿的词汇、短语、句子,而且这些语言成分之间又按自然语言的语法、逻辑形成了一些固定的关系,它们被压缩成数十亿个参数的数据,输入到AI的人工神经元(人工智能的基本成分)中,并让其学习。这种情况也决定了人工神经元之间的连接强度有变量。
在完成任务或回答人们提问时,AI是在拆分它们所学习的内容,把那些压缩的统计数据和模式再次展开。在这个过程中,必然会丢失一些信息。AI在拆分和再次展开它们所学习的信息时,大约能重构出近98%的训练内容,但在剩下的2%中,它们可能会完全偏离事实和逻辑,提供出部分或完全错误的产品和答案。
这个过程有点像基因表达以生产蛋白质一样,先是转录,以DNA为模板合成RNA,再以RNA作为模板生成蛋白质,即翻译。在转录和翻译的过程中任何一处出现失误,就有可能造成蛋白质生成的偏差,更何况基因本身发生突变也会导致蛋白产品的偏差和缺失,因而会产生各种疾病。
用户如何应对AI自我造假
AI编造虚假信息的时候也具有创造性,但是这种创造性是它们在搜寻自己被投喂的数据不够时的一种“急中生智”。
例如,当有人询问AI法国女作家安妮·埃尔诺是否为诺贝尔文学奖获得者时,它的回答很正确,还会给出代表作和写作风格,甚至个人的生活细节,因为埃尔诺是2022年的诺贝尔文学奖获得者,这是确定的事实,她的种种信息非常充分。
但是,你问住在广州某某市某某小区的某个人写了多少作品时,AI就有可能胡说八道了。因为这个人并非作家,但是AI会根据你的提问认为这个人是作家,而且根据一般作家的风格来杜撰这人的代表作和作品名称。
由此也可看出,AI的自我造假也有使用者的提示作用。
AI自我造假当然可以在一定程度上预防。一方面是改善对AI的训练,如可以通过检索增强生成(RAG)、事实核查、自我反思、一致性检查等方法来对AI大模型进行优化,增强其准确性,减少和避免其一本正经地胡说八道。
另一方面,使用生成式AI的用户,应当养成对AI产出的产品和答案不轻信的原则,在获取答案后,进行必要的交叉验证。此外,在和AI对话时,要为AI添加限制性条件,如先把一些条件和参考数据发给AI,让其严格按用户提供的资料进行搜索和生成产品。
当然,长期来看,AI自我造假的bug还需开发者不断填补,让AI真正走向精准的、靠谱的智能。(作者系科普专栏作家)