迄今最智能的通用AI,能做什么,不擅长做什么
说,OpenAI公司把训练数据中的标识工作外包到了非洲,就是雇佣一些普通人提前阅读充满粗话、脏话、人身攻击、意识形态等问题的文本,并且为文本打上标签。这一阶段的伦理判断是人为参与的。AI在后续学习的时候,就可以根据标签绕过陷阱,避免染上这些恶习。
从这个角度看,ChatGPT的目的是与人沟通,需要使用标记过的数据来学习,而不能像AlphaGo那样打破边界,寻找到很多人类之前从未考虑过的下棋方法。据说OpenAI在非洲的外包工作也出现了一些伦理问题,很多负责贴标签的工人在阅读大量恶意文本后,出现了心理和身体方面的不适,而OpenAI还没有妥善处理这些职业伤害问题。
不管怎样,ChatGPT的训练工作已经完成,我们现在对它提出的各种诱导性问题,都不会对它本身产生影响。它声称自己学习的语料库截止到2021年,不包含最新内容。同时,它也不会即时地在网络上信息,没有最新知识。它给出的所有回答,都是基于过去学习过的文本内容,通过自己的算法生产出来的。
我和很多朋友都很喜欢ChatGPT,经常在上面输入各种问题。时间久了,大家也陆续发现ChatGPT存在的一些问题。当然AI的算法充满了随机性,每一次的回答都不一样,并不能保证它一定会出现问题。但不止一次出现的问题,还是暴露出ChatGPT在学习过程中难以避免的一些缺陷。
而且AI的缺陷与人类常见的缺陷不一样,因为它是用一种跟人类不尽相同的学习方法在学习。当年AlphaGo出现的时候,围棋高手在跟它交手的过程中就发现过这种现象。过去人们会以为,计算机的“计算”肯定比人强,但“判断”就不行了,判断没有精确答案,对人类而言,是一种虚无缥缈的“直觉”。结果与AI交手以后发现,AI的判断远远超出人类,但在计算方面反而有缺陷。AI是用一种不同于人类的思考方式来阅读棋局,不是用逻辑。所以一些人类用逻辑能解决的问题,对于AI反而不那么容易。
第一,它非常不擅长事实核查。对于人类而言,我们对于知识的“真实性”有不同程度的把握。比如说:87是不是一个质数?我们稍微想一想,或者算一下,很快可以得出结论,不需额外信息,而且我们对此结论深信不疑。换一个问题:史景迁是否担任过美国历史学会的主席?这个问题我们可能没办法凭借逻辑推演出来,但只要上网查一下,很容易找到,结果也是确凿无疑的。再换一个问题,2020年,欧盟人均GDP排名第九的国家是哪个?这个问题比较复杂,我们需要在网上查一下,而且还要看数据
这些就是一般人类对于不同知识的认识,而且人类对前两类错误答案的容忍度很低,尤其对第一类错误的容忍度最低。因为这是人类小学生凭借一定的逻辑能力就能回答的问题。可惜的是,ChatGPT并不擅长回答这类问题。它最擅长回应没有明确答案、含糊不清、有无数可能性的问题,却不擅回答有明确答案的问题。它似乎没有“真实性”的感受,只是追求完整、漂亮地给出一段答复,并不顾忌答案的正确性。所以很多人向它提出一些简单的数学问题,结果得到了可笑的回答。
第二,ChatGPT缺乏逻辑推理能力。AlphaGo即是如此,ChatGPT也表现出相似的缺陷。有人这样问它,现在有一个无盖的红色盒子,里面有一个白球,还有一个蓝色的盒子,蓝色盒子有盖,现在我们怎样才能取出白球? ChatGPT会回答,打开蓝色盒子的盖子,取出白球。它并不能意识到,白球会在红色盒子以内、蓝色盒子以外。
从这一类错误也可以看出,ChatGPT对于事实的推理能力很差。它的学习都是从文本到文本,对于文字之间的关系非常敏感,但是对于事实却没有什么认知。它永远只在追求让提问者感觉更好,而不是追求提高回答的质量。
第三,ChatGPT缺乏深入思考、深入挖掘的能力。很多人开始用它来写格式文书,效果非常好。但是更进一步,希望它能提供富有专业水平的写作时,它就显得力不从心。问它一些笼统问题,比如对于法国大革命的看法,对于美国废奴运动的看法,它很快可以写出一篇思考全面、观点不俗的大纲性质的文字。专业人士希望它能就某一个论点继续讨论,但是无论怎么问,怎么引导,它都没法继续深入,这一点和我们面试研究生时的感觉非常相似。ChatGPT看似足够渊博,但是全都不够深入,没法写出具有专业洞见的文字。
使用ChatGPT进行文学创作时,也会有相似的感受。只要你给出主人公的名字,给出叙事要求,它很快就可以写出一个故事梗概或者故事大纲。但故事大纲无法等同于文学。当你要求ChatGPT再对这个大纲补充更多细节,补充更多描写时,它就一筹莫展。ChatGPT要在文学上给我们惊喜,恐怕还有很长的路要走。
第四,它的文字、审美品味普遍不高。ChatGPT可以写出文从字顺的短文,但没法写出有个性、有特点的文字,即使我们努力诱导它模仿鲁迅、模仿张爱玲、模仿卡夫卡,它也完全不得要领。它显然学习了太多的文本,又没有个性,最终只能写出最一般的文字。
在让ChatGPT编写创造性内容时,这种感受更为强烈。让它写一点故事梗概,写一点剧本桥段,即使给出很多诱导,最终写出来的东西还是平庸。可以想象,ChatGPT学习的语料库中,质量低劣、缺乏品位的文字一定占据绝大部分,没有人告诉它什么才是好的,最终ChatGPT无法分辨好坏,只能人云亦云地写作。对于创造性有较高要求的读者,肯定还无法接受目前ChatGPT生产的产品。
第五,ChatGPT在编造内容时,缺乏道德感。这也是让人头疼的一点。不欺骗、不撒谎,这是人类社会的主流道德。我们对于虚构/非虚构有着非常明确的认知边界,但是ChatGPT完全没有这种障碍。比如我们对ChatGPT说,Adam Smith是一位经济学者,请你介绍一下他的研究成果。ChatGPT会马上为Adam Smith虚构一个当今某大学经济学教授的身份,然后为他虚构一连串在主流学术期刊上的发表记录。很多杂志名称是真的,题目、格式也像模像样,就像从某个教授的简历里摘下来的一样,可全部这些都不存在。
对于人类而言,一般对话中包含有错误信息、错误观点不足为奇,但是简历是很重要的文件,虚构简历是一种性质恶劣的造假行为,无法接受。但ChatGPT并不认为虚构一份简历与虚构一段故事情节有什么区别,两者都是对人类提出问题的回应。
ChatGPT具有以上这么多的问题,使得我们在运用它解决问题时,也常感为难。我们希望ChatGpT能回应我们的问题,能生产出符合预期、符合要求的文本,最好还是超出我们预期的文本。同时我们对文本也有一些底线要求,千百年来都如此,比如真、善、美。但ChatGPT不知何为真,何为善,何为美。它只是想产生能对人们输入的语句进行回应的内容,但不知不觉,可能就违背了真、善、美的底线要求。
所以,我个人一方面为ChatGPT的出世而欢欣鼓舞,另一方面却也明确地感受到它的不足。目前我们可以用它来生产一些格式文档,也可以用它来写一些程序代码。但是在我的经验范围里,还几乎不能用它来写论文,更不用说写有创造性、文学性的文本。它就像一个自以为是、看似无所不知的本科新生,看起来知识渊博,但都只知皮毛,满口的陈词滥调。要把一个懵懂无知的本科新生训练成一个思考缜密、言辞准确的学者,或者脑洞大开、文采飞扬的作家,其中都还有很长的路要走。
而微软对于ChatGPT的应用,比我预想的要激进得多,这恐怕也是资本压力下不得不做出的妥协。如果它不走得快一点,其他竞争对手就要追上来了。据说微软会把ChatGPT嵌入到word,这样可以自动地写出大量文本;又说要把它嵌入到bing等引擎,把传统的方式改变成为聊天方式。但是前面列举的ChatGPT一系列的问题都不容易解决。现在就把它投入使用,会产生很多严重问题。
虽然我对ChatGPT充满感情,但并不认为它很快就能取代大量人类的工作。语言是我们认识这个世界的重要工具,其中也蕴含了人类对于这个世界的很多价值判断。ChatGPT很好地掌握了人类的语言,但是却还没有学会人类的价值判断,或者它秉持一些不同的价值判断。而且我们并不知道,它的道德感是否会随着模型的参数量扩大而涌现。这是我对下一代ChatGPT的最大期待。