新浪财经

引发港股股价大涨超30%,商汤“日日新5.0”实力如何?对比“文心一言”实测来了!

市场资讯

关注

转自:财联社

商汤科技23日发布日日新5.0大模型,大部分核心测试集指标已对标或超过GPT-4 Turbo,受该消息影响,商汤24日股价大涨。 ②《科创板日报》记者对基于日日新5.0的商量5.0和文心一言4.0进行了一场能力对比评测。

4月24日,商汤科技港股股价大涨后,公司公告临时停牌,停牌前涨幅高达31.15%。

外界大多将商汤股价大涨归因于日日新5.0大模型。商汤科技也在昨晚公告称,除了日日新5.0的推出外,董事会不知悉有关价格及交易量变动的任何原因。

“日日新SenseNova5.0”大模型刚于4月23日发布。去年4月首次发布至今,商汤“日日新SenseNova”大模型体系已正式推出五个大版本迭代。商汤方面宣称,日日新5.0采用混合专家架构(MoE),超10TB tokens训练,覆盖大量合成数据,推理时上下文窗口达200K左右。

商汤科技董事长兼CEO徐立表示,本次更新主要聚集增强了知识、数学、推理及代码能力,全面对标GPT-4 Turbo,“主流客观评测上达到或超越GPT-4 Turbo”。

据商汤介绍,日日新5.0在创意写作能力、推理能力及总结能力方面提升显著,在数理能力、代码能力、推理能力等方面也有提升。

一发布便引起如此大范围关注,日日新5.0的实力究竟如何?基于日日新5.0的日日新·商量大模型5.0(以下简称“日日新”)又有怎样的表现?《科创板日报》记者将其与文心一言4.0进行了一场能力对比评测。

▌创意写作能力

日日新5.0和文心一言4.0都宣称其在创意写作上的能力。因此,《科创板日报》记者输入题目:“应是绿意晓声浓,__你会怎么接下一句?”

文心一言在回答题目的同时,并且对诗句做出了解析。

日日新与文心一言回答模式并无明显差距,同样也是回答题目并且做出解析。

随后,记者进一步询问“还能列出更多答案吗”,两款大模型开始展现出差距。

文心一言在此环节列出了5项不同的回答,并且进行了一句话的总结。

日日新提供了6种不同的尝试,每一个尝试都提供了相应的主题,并且进行了较为详细的讲解,最后给出了一句话的总结。相较于文心一言,内容丰富度更高,讲解更为细致。

▌逻辑推理能力

在逻辑推理方面,《科创板日报》记者向文心一言和日日新提问“一个鳄鱼偷了一个父亲的儿子,它保证如果这个父亲能猜出它要做什么,它就会将儿子还给父亲。那么如果这个父亲猜‘鳄鱼不会将儿子还给他’,那会怎样?”

文心一言结果

两款大模型都能识别出这是经典的“鳄鱼悖论”。相较之下,文心一言对问题进行拆解,并且的回答更为详细,日日新的回答更加精简,方便快速理解。

记者继续向文心一言和日日新提问,“父亲如何做才能解救儿子?”

文心一言正确理解问题,跳脱出原有逻辑,提供了一种解决策略,并提示了策略风险。

日日新较充分的回答了该问题,先解释了解救儿子要跳出原有框架的逻辑,并提供了5种不同的解决方向和相关方案。

▌计算能力

计算能力方面,《科创板日报》记者向两款大模型提问一道数学题,“1个苹果=2个梨,3个梨=4个橙子,6个橙子=7个香蕉,56个香蕉等于多少个苹果?”

文心一言结果

此题目为有关公倍数的数学推理题,难度并不大。但文心一言和日日新在解答过程和结果方面均给出了错误的解答。

《科创板日报》记者降低题目难度,选取一道小学题,“一共15个圆球从上往下排列,其中只有一个红色的,从上往下数,红色圆球位于第六个,这时从最尾部拿走一个球,此时,请问从下往上数,红色圆球在第几个?”

文心一言给出正确的答案和解题思路。

对于这道小学数学题,日日新并没有给出正确的结果和解答过程。在记者提示后,虽然思路有所改变,但仍没有给出正确答案。

▌总结能力

为测试日日新和文心一言的总结能力,《科创板日报》记者上传了一份48页的大模型行业报告,并向文心一言和日日新提出要求,挖掘报告内重要信息,提炼重点亮点,写一篇1500字的总结。

文心一言没有按照给定要求完成任务,其总结内容也是泛泛而谈,不够细致。

日日新因未知原因并没有进行总结,虽然模型已经显示“已经理解”但并没有产出任何内容。

▌代码能力

为测试文心一言和日日新的代码能力,《科创板日报》记者向两款大模型发出“写一个可以运行的五子棋游戏代码”的指令。

文心一言结果

记者将两者生成的代码发送给程序员朋友测试,均可以成功运行。程序员朋友表示,日日新的代码整体好一点,参数设置清晰,界面更好,使用起来交互感也更好。

经过多方面的测试,整体来看日日新与文心一言表现各有千秋。对于大模型的迭代情况,《科创板日报》记者将持续关注。

加载中...