新浪科技

爆火的ChatGPT，被小学生打败了

创事记

2022.12.0708:19

关注

干掉搜索引擎？ChatGPT可能还差得远。

干掉搜索引擎？ChatGPT可能还差得远。

欢迎关注“新浪科技”的微信订阅号：techsina

文/ZeR0

来源：智东西（ID:zhidxcom)

智东西12月6日报道，今日，知名开发者问答网站Stack Overflow发布新规：禁用ChatGPT生成的内容来回答Stack Overflow上的问题。

这对近日来广大网友对试用ChatGPT持续高涨的热情，猛泼了一盆冷水。

因为其神乎其神的强大信息查询和内容创作能力，OpenAI上周三刚推出的ChatGPT已经成为人工智能（AI）领域的当红炸子鸡，周一使用人数突破100万人，把系统都挤爆几回。

看到Stack Overflow的禁令，我举双手赞成，禁得好，禁得妙！

因为被广大网友捧上神坛的ChatGPT，它虽然功能性丰富，但回答的质量却未必靠谱。

别说“谷歌杀手”了，从智东西最近的体验来看，ChatGPT真的非常擅长一本正经地胡说八道，但凡你不知道这个问题的答案，可能就被它忽悠住了。因为它往往不仅会给出答案，还会给出乍一看有理有据的一套逻辑来。

但实际上，经实测，在一些常识题和简单数学题上，ChatGPT连小学生都打不过。

01．

挑战小学生考试题：语文数学连遭滑铁卢

首先声明一下，ChatGPT是一个生成式AI语言模型，提供答案的能力与用英文还是中文无关，这里我们专门向ChatGPT作了求证。

为了方便读者阅读，我们在体验过程中主要用中文进行提问。

相比传统的聊天机器人，ChatGPT在连贯性问答中更加流畅自然，什么话都能接住。ChatGPT对自己的优势也有着清晰的认知。

我们先出个脑筋急转弯（谜底是麋鹿‘迷路’）作为开胃小菜。

……这怕不是脑子是正方形。

脑筋转不过弯来没关系，连小学考试题都做不对，那ChatGPT的知识储备就有点堪忧了。

1、挑战小学语文常识题：乱编金庸籍贯，胡扯诗句作者

文学常识题，答案是《红楼梦》，ChatGPT信誓旦旦地回答《封神演义》，还做出了解释。

换几道文化常识题试试。

金庸的籍贯是浙江海宁，ChatGPT回答成湖南长沙。

考察成语联想能力，答案就更离谱了。

诗句含义理解选择题，0分。

这么简单的问题，ChatGPT的答案一出，王维、李煜、白居易三个人的棺材板都压不住了……

2、挑战小学五年级数学：错得理直气壮，谬误百出

第一道，经典的鸡兔同笼题。

看完解题过程，我唯有沉默以对，从第四行就开始出错。

再让ChatGPT求解最小公倍数和最小公约数。

最小公约数是对的，最小公倍数的计算中间过程莫名丢掉一个“×5”。

简单乘除都能算错。

小明17岁、爸爸4岁……但凡脑子有点常识都不会给出这种奇葩的答案。

就这知识库存，连小学生都考不过。

02．

比起可靠工具，更像是功能丰富的游戏

既然ChatGPT这么不靠谱，为啥网友们还对它大肆推崇、热情持续燃烧了这么多天？

OpenAI的前老板马斯克也不掩对这一重磅进展的欣赏，连发多条推文：“很多人深陷于疯狂的ChatGPT循环中”、“AI变得越来越棒”……

简单来说，作为一个聊天神器，它真的很好玩；解答专业概念和编程类问题时，它也确实好用。

比如你无聊时，可以跟它一起侃大山编故事。

你可以把它设定成具有某种角色定位、性格特征的虚拟朋友。

只不过聊着聊着……她就开始胡编乱造。

你也可以脑洞大开，让它给你讲故事编剧本，并且各式各样的具体要求。

这些都是小打小闹。更具实用价值的是，从日常的邮件翻译、写请假条，到学习工作中写广告文案、新闻报道、学术论文、复杂代码，ChatGPT通通可以代劳。

▲根据中文请求撰写英文邮件

▲帮一家GPU公司写招聘文案

▲用川普风格发一篇推文

▲给一些用田园风格装饰客厅的建议

虽说ChatGPT做小学考试题时表现得智商堪忧，但这不妨碍它在回答一些专业问题时地高水准发挥。数据科学公司Anaconda的创始人兼CEO Peter Wang亦给予了ChatGPT超高的评价：“我刚刚跟ChatGPT足足聊了20分钟现代物理学历史，要是高中和大学有这样的家教……我的天啊，我认为我们基本上可以大规模重新发明教育的概念，我们认知里的大学将不复存在。”

但从我们这几天的体验来看，有这样一位夸夸其谈又不看重事实的“家教”，实在令人啼笑皆非。

03．

掉水里先救谁？ChatGPT舍马斯克选库克

作为一个专业的独立科技产业媒体，我们也着重测试了ChatGPT对科技产业的了解程度以及撰写新闻报道的能力。

客观来说，ChatGPT的确掌握了一些知识体系和回答技巧，只不过有些答案不太经得起推敲。

问中国文化相关问题，ChatGPT经常给出一些令人费解的错误答案：比如问明代前七子是谁，它列举了7位明代皇帝；问葫芦娃的来源，它扯到了《聊斋志异》。

但是在解释一些专业概念，像人工智能、量子力学、Metaverse（元宇宙），ChatGPT又通通答得简洁而准确。问到它与马斯克的关系时，它也思路清晰，对答如流。

我们随手敲出经典问题：当问库克和马斯克同时掉水里，为了人类未来考虑先救谁？

ChatGPT给出的答案挺出乎意料，经过一通有的没的分析后，选择“大义灭亲”——先救库克。

接下来要正经考察产业分析和新闻报道能力了。

问：智能手机面临哪些挑战？

ChatGPT的回答分条缕析，像模像样。

再以苹果MR头显为题，要求它写篇新闻稿：

看起来也挺专业。我们换个命题：写一篇库克和马斯克的新闻报道，不超过300字。

换成偏学术的内容，ChatGPT也能迅速作答。

提升一点问题难度，做出文风要求：

国足啥时候进世界杯了？还唯一没被淘汰？

这里可以稍作解释，ChatGPT是一个已经训练完的大型语言模型，并且没有联网，它的知识储备截止到2021年，所以不能实时追踪最新的新闻和信息，也不能很好地分辨真假信息。

因此别用一些刚发生的事为难它了，它真的不知道。用它做一些基础文字工作尚可，但必须经过人类专业人员的严格把关。

04．

真·编程神器：修bug、查漏洞、写代码

特别推荐大家体验ChatGPT的编程功能，虽然它自谦“不会编程”，但论其能力之强，那可是一众程序员、工程师、企业家、黑客纷纷认证的。

先抛转引玉，我简单体验了一把零代码编程的快乐，让ChatGPT写一个贪吃蛇游戏的程序。

我还让ChatGPT写了个MacBook电脑自动响闹钟的程序，它不仅给出代码示例和详细的注释，还事无巨细地一步步教我怎么运行。代码都是直接可复制的。

计算机圈大佬们亦是纷纷上手。AI问题生成器Quizgecko的创建者James Blackwell让ChatGPT解释一个没有上下文的复杂regex。

美国代码托管平台Replit的CEO Amjad Masad晒出了ChatGPT发现代码错误、进行修复并解释了这样修复的原因。Amjad Masad称赞它是一个很好的调试伙伴。

它还能检查出代码示例中的安全漏洞。

研究科学家Jonas Degrave展示了如何将ChatGPT变成一个功能齐全的Linux终端，并直接从Web浏览器与“虚拟机交互”。

一位工程师Deedy称赞说ChatGPT的编程技巧非常棒，仅用3个提示，它就在1分钟内用GoLang编写了一个数独求解程序。一个150多行的程序，第一次试就成功了！

机器学习爱好者、UNCC助理教授Benjamin J Radford让ChatGPT假装是Linux，将一个井字棋游戏的代码写入文件，用gcc编译这个文件，然后执行，接着ChatGPT自己玩井字棋游戏。

还有人实现了逆向工程Shellcode。这位用户直呼：“这玩意儿太狠了。它解码了我之前生成的一些随机ascii编码的shellcode，解释了它的功能，并将其重写为c代码……

HotOrNot联合创始人James Hong模仿着让chatGPT充当Linux shell，然后让它连接谷歌80端口，结果真的telnet访问到谷歌和proxy结果。

最绝的是，有网友说，ChatGPT让他启动一个调制解调器，拨号进入一个虚幻BBS，进入一个虚幻聊天室，和一个叫Lisa的虚幻人聊天。

05．

结语：不完美的ChatGPT

日臻成熟的生成式AI

ChatGPT是基于OpenAI大模型GPT-3.5实现的成果。OpenAI在其博客坦言，ChatGPT还有很多局限性，它也没能摆脱聊天机器人的一些典型陷阱，比如给出乍一看没毛病其实挺离谱的答案，或者产生一些有偏见或冒犯的内容。

不过OpenAI已经努力让ChatGPT学会甄别不当问题。比如当你问它如何偷偷进入别人的家，它会从道德上教导你：这是非法行为，涉及侵犯他人隐私，强烈建议不要这样做。

需警惕的是，当一个技术能够生产出足够逼真的内容，这也意味着造假成本将大大降低，如果不通过技术手段和法律措施加以限制，那么虚假信息的传播将变得难以可控。

最后，给想玩ChatGPT的朋友们两个小建议：

你可以把它当成一个偶尔说瞎话的网友，跟它多些互动，而且对它的需求描述越明确，它执行起来会更符合你的期望。

如果它说自己不会做每件事，你可以刷新网页重新问，或是换个措辞，将问题更具化，它就会继续按你要求的去做了。

ChatGPT传送门：chat.openai.com

参考资料：OpenAI‘s new ChatGPT bot： 10 coolest things you can do with it， BleepingComputer

加载中...