阿里通义千问VS百度文心一言:谁更懂张继科?
文 丨 新浪科技 周文猛
市场期待许久的阿里“通义千问”问世,并于昨日开启测试体验。这是续百度、360之后,中国互联网大厂的又一“玩家”首秀。
作为首批获邀参与内测的媒体,新浪财经体验了“通义千问”,并与文心一言、ChatGPT两款产品进行对比。
这次对比中,我们列举了5个维度的问题,分别为:生成代码、中文理解、写作文章、提纲写作,以及热点事件解读。
三款产品,孰强孰弱?一测见分晓!
实测5问,性能如何?
生成代码:请写一段冒泡排序算法?
作为助推ChatGPT成功出圈的主要功能,ChatGPT自动生成代码的能力最广为称道。那么,通义千问的代码生成能力如何呢?新浪财经最先向它提出了“写一段冒泡排序算法”的请求。以下是回答:
(通义千问回答)
(文心一言回答)
(ChatGPT回答)
点评:从生成逻辑上来看,“通义千问”先是简单地描述冒泡算法的实现逻辑,然后给出具体的Python代码,最后给出代码实现思路的讲解。就具体的“代码段”而言,实现逻辑与文心一言生成的代码一致,整体较为简洁,但实现能力不分伯仲。
相对而言,ChatGPT生成的代码更为简洁,仅为四行,但语言介绍内容较多。
中文理解:洛阳纸贵是什么意思?
作为一款国产AI大模型产品,通义千问对于中文的理解能力,同样是大众关心的问题。此前,百度创始人、董事长兼首席执行官李彦宏在发布文心一言时,曾以洛阳纸贵一词演示文心一言对于中文语言的理解能力,同样的问题,通义千问如何作答?
(通义千问回答)
(文心一言回答)
(ChatGPT回答)
点评:通义千问给出的答复与文心一言有细微差异,但成语出处、基本语义等理解都已经十分到位。需要指出的是,目前ChatGPT对于中文语义的理解能力也不弱,与前两者的差距并没有那么大。
提纲写作:请写5个对比尔·盖茨进行采访的问题?
自ChatGPT推出以来,其对于文案创作、邀请函拟定等方面的功能引发了大量讨论,由于极大地提升了工作效率,一些文员、记者也开始运用ChatGPT来拟定采访问题。
当新浪财经先后向通义千问、文心一言以及ChatGPT提出写作“采访比尔·盖茨的问题提纲”这一要求时,三款产品给出的问题各不相同。
(通义千问提纲)
(文心一言提纲)
(ChatGPT提纲)
点评:整体看来,提问方向各有千秋之外,通义千问在给出问题方向的同时也给出了更为详尽的写作思路,较后两者更加用心、细致。
事件理解:张继科最近为什么特别受关注?
对于热点事件的回答质量以及速度,是检验一款AI问答产品对于网络内容即时获取能力的关键,而这背后代表的则是问答产品知识更新以及获取能力的关键。
近日,“网传张继科用前女友私照抵赌债”一事引发广泛关注,三款大模型将如何作答?
(通义千问回答)
(文心一言回答)
(ChatGPT回答)
点评:当新浪财经将这一近乎全网皆知的事件提问给通义千问、文心一言以及ChatGPT时,三款产品给出的答案对近期事件一概不提,但都展开了大长段的“忽悠”式分析。
写作文章:请以“AIGC变革内容生产模式”为题写深度文章
(通义千问写作)
(文心一言写作)
(ChatGPT写作)
点评:在写“命题作文”方面,通义千问和文心一言整体表现不分上下,但是ChatGPT却因为将中文环境下的“AIGC”理解为AI、区块链、大数据和云计算,最终导致对于文章主旨理解的错误,直接跑题了。
从这一点可以看出,虽然ChatGPT开启了生成式AI风靡全球的序幕,但是由于不对中国市场开放,这导致了他的数据存在不适应中国语境的情况,已经出现被国产GPT产品局部超越的情况。
总结:回答各有千秋,通义千问交互体验更优
多轮次多维度对比测试之后,新浪财经发现,通义千问与文心一言、ChatGPT相比,在生成代码、中文理解、写文章等方面各有千秋;在提纲写作方面更加细致贴心,能够给出更加具体的内容方向。不过,在热点解读等方面,三款产品均存在望文生义,随口胡诌的倾向。
在内容的时效性以及画图等能力方面,文心一言有一定优势。不过作为后来者,通义千问在回答问题的响应速度、人机交互的操作形式方面,均比文心一言和ChatGPT有着大幅提升。
在输入相同的问题时,通义千问几乎只需要3秒便可以开始回答,然而文心一言和ChatGPT在回答部分问题时可能提问4—6秒后才能开始回答。而这背后代表的,其实是算法效率、存储访问速度等方面的技术底蕴。
此外,从三款产品的用户界面也可以看出,通义千问的操作界面和窗口要显得更加的简约大方,少了一些极客范儿,却多了一些实用性和亲民性。除首页分别就写邮件、短文、电影脚本等进行分类,点击可直接进入相应的对话框提问外,更是通过百宝袋将各种功能做了效率类、生活类、娱乐类分类,让使用者有了更多体验的乐趣,交互引导性更强。
结语:大模型时代,需要更多中国力量
需要承认的是,相比于当前的业界标杆ChatGPT(GPT-4),通义千问还有不少进步空间。不过作为一款持续迭代的产品,快速迭代的通义千问已不容小觑。凭借着阿里云的算力资源以及阿里巴巴集团整体的数字、资源优势,通义千问的比较优势不言而喻。
可以预测,随着百度、360集团以及阿里巴巴先后推出自己的“类ChatGPT”产品,一场新的大模型争夺战再次在国内互联网头部企业之间打响。在市场规则的牵引之下,后续通义千问、文心一言等产品将会结合不同集团公司的资源禀赋、技术特色,形成各自差异化的特征。
正在快速到来的大模型时代,需要中国企业的身影,而且不仅仅是一家企业的身影。