宣称仅次于ChatGPT却低级错误频发，王小川的百川智能拿什么“弯道超车”？

新经济IPO

财经领域创作者 2024.02.2818:52

关注

拼GPU拼不过，拼生态王小川就能赢吗？王小川看到的，国内其他大模型厂商也都虎视眈眈地盯着，关键在于，无论是TO B还是TO C，如果拿不出过硬的产品，用户也不会为情怀买单。

截至1月初，成立于2023年4月的百川智能已发布了10款大模型，平均每月一款，成为大模型发布速度最快的中国公司。百川智能被很多人视为在技术上有望比肩GPT的两家创业公司之一。而王小川认为中国公司的突破机会在应用层面，不过他口中的“超级应用”落地时间却一再推迟。

在我们的最新测评中，宣称拥有“全球最强长文本”的百川大模型低级错误频发，与其官网上展示的仅次于ChatGPT的实力不太相符。这不禁让人怀疑，百川智能为“第一梯队五家大模型”之一的宣传到底是口嗨还是无知者无畏？

实测过程低级错误频发

去年12月19日，百川智能开放了基于搜索增强的Baichuan2-Turbo系列API（应用程序编程接口），包含Baichuan2-Turbo-192K及Baichuan2-Turbo，形成了“大模型+超长上下文窗口+搜索增强知识库”的新组合。

王小川将这套组合比喻为“大模型时代的新计算机”：大模型类似于计算机的CPU，上下文窗口可以看做计算机的内存，互联网实时信息与企业完整知识库共同构成了大模型时代的硬盘，由此构成了一个完整技术栈，能够有效解决大模型幻觉、时效性差、专业领域知识不足等问题，实现了互联网实时信息+企业完整知识库的“全知”。

也就是说，搜索增强、长文本处理、知识库是百川大模型的核心优势，由于后者需要B端企业自建，因此新经济IPO对前两项进行了测试。

在搜索场景下，新经济IPO分别询问了喜茶、蜜雪冰城、甜啦啦2023年新开门店数量，发现百川大模型低级错误频发。

公开信息显示，喜茶2023年新开2300家门店，430家是喜茶在2023年5月份披露的数字，可见百川智能在互联网信息搜索上存在明显不足（王小川可是做搜索起家的），对关键信息的识别、提取和归纳能力也存在硬伤。对于蜜雪冰城的问题，百川AI两次回答数据完全不同，且差异较大；最后，百川智能在甜啦啦的门店数量上也回答错误。

整体来看，百川智能在信息的搜索广度、准确性以及归纳提取能力上都存在硬伤。

接下来，新经济IPO进入开发者中心，里面有20个应用场景供试用。新经济IPO首先在“会议内容总结”场景中提交了一份腾讯2023Q1财报，让大模型提炼主要数据。百川智能在处理如此简单的任务时仍然犯了一个低级错误：将分版块“其他”财报数据的9.84亿元改成了984亿元。

随后，新经济IPO在“办公提效”场景下，要求百川智能起草一份企业年会邀请函，返回结果中规中矩；在“社媒内容生成”场景下，新经济IPO又要求百川智能撰写一篇《三大队》影评。百川智能快速写了一篇数百字点评，但搞笑的是，它描述的故事情节与电影并不一致，让人如坠雾里。电影中主角为队长程兵，也被百川智能改成了“李队长”。

“长文本”是百川大模型主攻方向之一，也是王小川重点鼓吹的优势之一。在测试时，新经济IPO输入了一篇两家互联网大厂市场竞争的万字长文，并要求百川智能提取主要观点，但遭到拒绝。百川智能提示称，“我还没学习如何回答这个问题”。

新经济IPO再次输入一篇2万字的稿件后，百川智能快速给出了一篇中规中矩的总结。不过，当我们第三次尝试给百川智能“喂料”13万字的素材后，百川智能反应变得迟钝，最终出现异常，并要求用户尝试重新启动。

就上述体验结果来看，百川大模型的表现并不让人满意，无论是信息检索还是简单提炼加工能力，百川智能还远未达到王小川所宣传的“用的爽”的程度，王小川或需加倍努力，才能让其产品追上此前的“口嗨”。

“超级产品”落地无期

王小川去年和“宿敌”李彦宏，围绕着国产大模型追上ChatGPT究竟 “差几个月”吵得火热；为了让别人相信自研实力，从百川大模型第二版开始把训练方法、切片、参数模型的变化都对外公开。

百川智能官网也挂着权威测评数据集，展示其与ChatGPT的差距。排行榜显示，Baichuan-7B排名位于GPT4.0和GPT3.5之后，超过了科大讯飞的讯飞星火、阿里的通义千问、元语智能、NewBing等。百川智能称，其在国内外多榜单排名第一，中文榜大幅度领先。

相比一些国产大模型焦虑于ChatGPT的参数，王小川相对坦然。他表示，尽管在技术上还有差距，但在应用层面，中国AI应用未必是跟随者。

“不想再做跟随者”，是王小川去年接受采访时提及最多的话。在王小川看来，盲目跟随OpenAI的脚步不可取，“超级应用”才是中国大模型企业的舒适区，也最有可能实现“弯道超车”。

到底是弯道超车还是模仿跟随，王小川在这一点上远没有“红衣主教”周鸿祎坦诚。近日，针对OpenAI文生视频大模型Sora令人惊艳的技术进步，周鸿祎直言，Sora的技术路线如果被开源，国内能很快赶上。换言之，国内主要大模型团队迄今为止都没有跟进发布文生视频的大模型，主要原因还是Sora没有开源，国内大模型研发团队无法“模仿”。

去年4月，王小川下场做大模型，6月就发布第一个产品，速度不可谓不快，但这到底是“自研”还是照搬了国外开源产品，做了一点修修补补工作？无论是王小川还是其他大模型团队，恐怕都是不敢正面回答的一个问题。去年，王小川去美国硅谷考察OpenAI后，他很讨巧地表示，他很敬畏OpenAI可以把“1000万颗GPU连在一起做大模型”，但认为中国更擅长做超级产品，可以拼应用、拼落地、拼生态。

承认落后不丢人，诡辩就显得无比虚伪，甚至有欺骗投资人和用户之嫌。这就和国内某些新能源汽车厂商一样，自身硬技术沉淀约等于零，却开口必说，自己擅长给用户创造舒适体验（带床带冰箱带大屏）。

差异化当然可以成就一家创业公司，也能产生好的产品，但这都离不开硬实力支撑。

王小川去年4月开始AI创业时就强调要做超级产品，但之后只问楼梯响，所谓“超级产品”落地时间一再推迟。所以外界一直困惑王小川的“超级产品”究竟长什么样子？

王小川去年底给出答案，“得有千万级以上用户在使用才能叫超级产品”，并称“大家对超级产品的进度有点苛求了”。王小川由极度乐观转向保守，让外界很困惑，他对AI应用赶超国外产品的信念是否开始动摇。

新经济IPO注意到，百川智能原计划2024年1月19日结束公测开始收费，但截止目前其官网仍显示“限时免费”。商业化尚未开启，要做到千万用户谈何容易？所谓的“超级产品”，看上去更像是王小川给百川智能投资人画的一张大饼。

AI独角兽的困境

拼生态王小川就能赢吗？王小川看到的，国内其他大模型厂商也都虎视眈眈地盯着，关键在于，无论是TO B还是TO C，如果拿不出过硬的产品，用户也不会为情怀买单。

ChatGPT基于良好的应用体验，截至去年底付费用户在20-25万之间；截至1月11日，GPTs Hunter 统计的GPT数量为101801个，官方网站实际创建数量300万个；2024年OpenAI年化收入预计50亿美元。亚马逊重金下注的Anthropic，2023年收入1亿美元，预计到2024年底可达5亿美元；公认的超级应用Copilot，带动微软市值破了3万亿。

此外，还有AI图像生成产品Midjourney，凭借着付费订阅每年都能实现1亿美元营收，且已积累了1000多万用户：早期GPT生态最大赢家Jasper AI，18个月创造了8000万美元营收，2023年4月就已积累了约10万付费客户。

再看看王小川的百川智能，目前付费用户目前还是零，如何做到“弯道超车”呢？风投愿意为王小川的情怀买单，终端用户愿意吗？

除了商业化困境，百川智能还要面对互联网大厂的无情狙击。

过去国内一贯的打法是向C端提供产品，B端（广告商）收费，这一商业模式恐怕很难在大模型时代复刻，对于国内普通用户而言，“AI生成内容”并非大部分人所需。这也揭示了国内大模型初创公司面临的竞争困境：对外技术上要追赶GPT，对内生态上则要与大厂抗衡。

目前国内一线大厂基本都提供大模型定制化、一站式服务来创收，它们原有的办公生态如钉钉、飞书、腾讯办公三件套等也更容易切入AIGC应用场景，而百川大模型的应用场景大多与三家办公体系内的智能场景重叠，百川智能能拿出更具竞争力的差异化产品，对抗互联网大厂吗？

在这种情况下，百川智能为代表的国内大模型创业团队就面临一个紧迫的现实：盈利之前要如何活下去？大模型创业比此前任何互联网创业浪潮烧钱更猛，没有持续不断的融资支撑，大模型团队很难撑下去。随着越来越多人涌入AI赛道，各路资金方出手也越来越谨慎。一个可以参考的数据是，2023年的国内AI领域融资额，创下2015年以来的新低。

目前，百川智能、智谱AI这些估值在10亿美元以上的独角兽融资还算顺利，但它们的估值已被提前透支。有投资人曾质疑，“到了这么高的估值以后，VC、战投到底期待什么样的退出？”

对照当下回看过去，王小川所描述的未来还值得期待吗？

​宣称仅次于ChatGPT却低级错误频发，王小川的百川智能拿什么“弯道超车”？

新经济IPO

宣称仅次于ChatGPT却低级错误频发，王小川的百川智能拿什么“弯道超车”？