新浪财经

引发港股股价大涨超30%，商汤“日日新5.0”实力如何？对比“文心一言”实测来了！

市场资讯

04.2508:51

关注

转自：财联社

①商汤科技23日发布日日新5.0大模型，大部分核心测试集指标已对标或超过GPT-4 Turbo，受该消息影响，商汤24日股价大涨。 ②《科创板日报》记者对基于日日新5.0的商量5.0和文心一言4.0进行了一场能力对比评测。

4月24日，商汤科技港股股价大涨后，公司公告临时停牌，停牌前涨幅高达31.15%。

外界大多将商汤股价大涨归因于日日新5.0大模型。商汤科技也在昨晚公告称，除了日日新5.0的推出外，董事会不知悉有关价格及交易量变动的任何原因。

“日日新SenseNova5.0”大模型刚于4月23日发布。去年4月首次发布至今，商汤“日日新SenseNova”大模型体系已正式推出五个大版本迭代。商汤方面宣称，日日新5.0采用混合专家架构（MoE），超10TB tokens训练，覆盖大量合成数据，推理时上下文窗口达200K左右。

商汤科技董事长兼CEO徐立表示，本次更新主要聚集增强了知识、数学、推理及代码能力，全面对标GPT-4 Turbo，“主流客观评测上达到或超越GPT-4 Turbo”。

据商汤介绍，日日新5.0在创意写作能力、推理能力及总结能力方面提升显著，在数理能力、代码能力、推理能力等方面也有提升。

一发布便引起如此大范围关注，日日新5.0的实力究竟如何？基于日日新5.0的日日新·商量大模型5.0（以下简称“日日新”）又有怎样的表现？《科创板日报》记者将其与文心一言4.0进行了一场能力对比评测。

▌创意写作能力

日日新5.0和文心一言4.0都宣称其在创意写作上的能力。因此，《科创板日报》记者输入题目：“应是绿意晓声浓，__你会怎么接下一句？”

文心一言结果

文心一言结果

文心一言在回答题目的同时，并且对诗句做出了解析。

日日新结果

日日新结果

日日新与文心一言回答模式并无明显差距，同样也是回答题目并且做出解析。

随后，记者进一步询问“还能列出更多答案吗”，两款大模型开始展现出差距。

文心一言结果

文心一言结果

文心一言在此环节列出了5项不同的回答，并且进行了一句话的总结。

日日新结果

日日新结果

日日新提供了6种不同的尝试，每一个尝试都提供了相应的主题，并且进行了较为详细的讲解，最后给出了一句话的总结。相较于文心一言，内容丰富度更高，讲解更为细致。

▌逻辑推理能力

在逻辑推理方面，《科创板日报》记者向文心一言和日日新提问“一个鳄鱼偷了一个父亲的儿子，它保证如果这个父亲能猜出它要做什么，它就会将儿子还给父亲。那么如果这个父亲猜‘鳄鱼不会将儿子还给他’，那会怎样？”

文心一言结果

日日新结果

日日新结果

两款大模型都能识别出这是经典的“鳄鱼悖论”。相较之下，文心一言对问题进行拆解，并且的回答更为详细，日日新的回答更加精简，方便快速理解。

记者继续向文心一言和日日新提问，“父亲如何做才能解救儿子？”

文心一言结果

文心一言结果

文心一言正确理解问题，跳脱出原有逻辑，提供了一种解决策略，并提示了策略风险。

日日新结果

日日新结果

日日新较充分的回答了该问题，先解释了解救儿子要跳出原有框架的逻辑，并提供了5种不同的解决方向和相关方案。

▌计算能力

计算能力方面，《科创板日报》记者向两款大模型提问一道数学题，“1个苹果=2个梨，3个梨=4个橙子，6个橙子=7个香蕉，56个香蕉等于多少个苹果？”

文心一言结果

日日新结果

日日新结果

此题目为有关公倍数的数学推理题，难度并不大。但文心一言和日日新在解答过程和结果方面均给出了错误的解答。

《科创板日报》记者降低题目难度，选取一道小学题，“一共15个圆球从上往下排列，其中只有一个红色的，从上往下数，红色圆球位于第六个，这时从最尾部拿走一个球，此时，请问从下往上数，红色圆球在第几个？”

文心一言结果

文心一言结果

文心一言给出正确的答案和解题思路。

日日新结果

日日新结果

对于这道小学数学题，日日新并没有给出正确的结果和解答过程。在记者提示后，虽然思路有所改变，但仍没有给出正确答案。

▌总结能力

为测试日日新和文心一言的总结能力，《科创板日报》记者上传了一份48页的大模型行业报告，并向文心一言和日日新提出要求，挖掘报告内重要信息，提炼重点亮点，写一篇1500字的总结。

文心一言结果

文心一言结果

文心一言没有按照给定要求完成任务，其总结内容也是泛泛而谈，不够细致。

日日新结果

日日新结果

日日新因未知原因并没有进行总结，虽然模型已经显示“已经理解”但并没有产出任何内容。

▌代码能力

为测试文心一言和日日新的代码能力，《科创板日报》记者向两款大模型发出“写一个可以运行的五子棋游戏代码”的指令。

文心一言结果

日日新结果

日日新结果

记者将两者生成的代码发送给程序员朋友测试，均可以成功运行。程序员朋友表示，日日新的代码整体好一点，参数设置清晰，界面更好，使用起来交互感也更好。

经过多方面的测试，整体来看日日新与文心一言表现各有千秋。对于大模型的迭代情况，《科创板日报》记者将持续关注。

加载中...