新浪科技

​宣称仅次于ChatGPT却低级错误频发,王小川的百川智能拿什么“弯道超车”?

新经济IPO

关注

拼GPU拼不过,拼生态王小川就能赢吗?王小川看到的,国内其他大模型厂商也都虎视眈眈地盯着,关键在于,无论是TO B还是TO C,如果拿不出过硬的产品,用户也不会为情怀买单。

截至1月初,成立于20234月的百川智能已发布了10款大模型,平均每月一款,成为大模型发布速度最快的中国公司。百川智能很多人视为在技术上有望比肩GPT的两家创业公司之一。王小川认为中国公司的突破机会在应用层面,不过口中的“超级应用”落地时间一再推迟。

在我们的最新测评中,宣称拥有“全球最强长文本”的百川大模型低级错误频发,与其官网上展示的仅次于ChatGPT的实力不太相符。这不禁让人怀疑,百川智能为“第一梯队五家大模型”之一的宣传到底是口嗨还是无知者无畏?

实测过程低级错误频发

去年12月19日,百川智能开放了基于搜索增强的Baichuan2-Turbo系列API(应用程序编程接口),包含Baichuan2-Turbo-192K及Baichuan2-Turbo,形成了“大模型+超长上下文窗口+搜索增强知识库”的新组合。

王小川将这套组合比喻为“大模型时代的新计算机”:大模型类似于计算机的CPU,上下文窗口可以看做计算机的内存,互联网实时信息与企业完整知识库共同构成了大模型时代的硬盘,由此构成了一个完整技术栈,能够有效解决大模型幻觉、时效性差、专业领域知识不足等问题,实现了互联网实时信息+企业完整知识库的“全知”。

也就是说,搜索增强、长文本处理、知识库是百川大模型的核心优势,由于后者需要B端企业自建,因此新经济IPO对前两项进行了测试。

在搜索场景下,新经济IPO分别询问了喜茶、蜜雪冰城、甜啦啦2023年新开门店数量,发现百川大模型低级错误频发。

公开信息显示,喜茶2023年新开2300家门店,430家是喜茶在2023年5月份披露的数字,可见百川智能在互联网信息搜索上存在明显不足(王小川可是做搜索起家的),对关键信息的识别、提取和归纳能力也存在硬伤。对于蜜雪冰城的问题,百川AI两次回答数据完全不同,且差异较大;最后,百川智能在甜啦啦的门店数量上也回答错误。

整体来看,百川智能在信息的搜索广度、准确性以及归纳提取能力上都存在硬伤。

接下来,新经济IPO进入开发者中心,里面有20个应用场景供试用。新经济IPO首先在“会议内容总结”场景中提交了一份腾讯2023Q1财报,让大模型提炼主要数据。百川智能在处理如此简单的任务时仍然犯了一个低级错误:将分版块“其他”财报数据的9.84亿元改成了984亿元。

随后,新经济IPO在“办公提效”场景下,要求百川智能起草一份企业年会邀请函,返回结果中规中矩;在“社媒内容生成”场景下,新经济IPO又要求百川智能撰写一篇《三大队》影评。百川智能快速写了一篇数百字点评,但搞笑的是,它描述的故事情节与电影并不一致,让人如坠雾里。电影中主角为队长程兵,也被百川智能改成了“李队长”。

“长文本”是百川大模型主攻方向之一,也是王小川重点鼓吹的优势之一。在测试时,新经济IPO输入了一篇两家互联网大厂市场竞争的万字长文,并要求百川智能提取主要观点,但遭到拒绝。百川智能提示称,“我还没学习如何回答这个问题”。

新经济IPO再次输入一篇2万字的稿件后,百川智能快速给出了一篇中规中矩的总结。不过,当我们第三次尝试给百川智能“喂料”13万字的素材后,百川智能反应变得迟钝,最终出现异常,并要求用户尝试重新启动。

就上述体验结果来看,百川大模型的表现并不让人满意,无论是信息检索还是简单提炼加工能力,百川智能还远未达到王小川所宣传的“用的爽”的程度,王小川或需加倍努力,才能让其产品追上此前的“口嗨”。

“超级产品”落地无期

王小川去年和“宿敌”李彦宏,围绕着国产大模型追上ChatGPT究竟 “差几个月”吵得火热;为了让别人相信自研实力,从百川大模型第二版开始把训练方法、切片、参数模型的变化都对外公开。

百川智能官网也挂着权威测评数据集,展示其与ChatGPT的差距。排行榜显示,Baichuan-7B排名位于GPT4.0和GPT3.5之后,超过了科大讯飞的讯飞星火、阿里的通义千问、元语智能、NewBing等。百川智能称,其在国内外多榜单排名第一,中文榜大幅度领先。

相比一些国产大模型焦虑于ChatGPT的参数,王小川相对坦然。他表示,尽管在技术上还有差距,但在应用层面,中国AI应用未必是跟随者。

“不想再做跟随者”,是王小川去年接受采访时提及最多的话。在王小川看来,盲目跟随OpenAI的脚步不可取,“超级应用”才是中国大模型企业的舒适区,也最有可能实现“弯道超车”。

到底是弯道超车还是模仿跟随,王小川在这一点上远没有“红衣主教”周鸿祎坦诚。近日,针对OpenAI文生视频大模型Sora令人惊艳的技术进步,周鸿祎直言,Sora的技术路线如果被开源,国内能很快赶上。换言之,国内主要大模型团队迄今为止都没有跟进发布文生视频的大模型,主要原因还是Sora没有开源,国内大模型研发团队无法“模仿”。

去年4月,王小川下场做大模型,6月就发布第一个产品,速度不可谓不快,但这到底是“自研”还是照搬了国外开源产品,做了一点修修补补工作?无论是王小川还是其他大模型团队,恐怕都是不敢正面回答的一个问题。去年,王小川去美国硅谷考察OpenAI后,他很讨巧地表示,他很敬畏OpenAI可以把“1000万颗GPU连在一起做大模型”,但认为中国更擅长做超级产品,可以拼应用、拼落地、拼生态。

承认落后不丢人,诡辩就显得无比虚伪,甚至有欺骗投资人和用户之嫌。这就和国内某些新能源汽车厂商一样,自身硬技术沉淀约等于零,却开口必说,自己擅长给用户创造舒适体验(带床带冰箱带大屏)。

差异化当然可以成就一家创业公司,也能产生好的产品,但这都离不开硬实力支撑。

王小川去年4月开始AI创业时就强调要做超级产品,但之后只问楼梯响,所谓“超级产品”落地时间一再推迟。所以外界一直困惑王小川的“超级产品”究竟长什么样子?

王小川去年底给出答案,“得有千万级以上用户在使用才能叫超级产品”,并称“大家对超级产品的进度有点苛求了”。王小川由极度乐观转向保守,让外界很困惑,他对AI应用赶超国外产品的信念是否开始动摇。

新经济IPO注意到,百川智能原计划2024年1月19日结束公测开始收费,但截止目前其官网仍显示“限时免费”。商业化尚未开启,要做到千万用户谈何容易?所谓的“超级产品”,看上去更像是王小川给百川智能投资人画的一张大饼。

AI独角兽的困境

拼生态王小川就能赢吗?王小川看到的,国内其他大模型厂商也都虎视眈眈地盯着,关键在于,无论是TO B还是TO C,如果拿不出过硬的产品,用户也不会为情怀买单。

ChatGPT基于良好的应用体验,截至去年底付费用户在20-25万之间;截至1月11日,GPTs Hunter 统计的GPT数量为101801个,官方网站实际创建数量300万个;2024年OpenAI年化收入预计50亿美元。亚马逊重金下注的Anthropic,2023年收入1亿美元,预计到2024年底可达5亿美元;公认的超级应用Copilot,带动微软市值破了3万亿。

此外,还有AI图像生成产品Midjourney,凭借着付费订阅每年都能实现1亿美元营收,且已积累了1000多万用户:早期GPT生态最大赢家Jasper AI,18个月创造了8000万美元营收,2023年4月就已积累了约10万付费客户。

再看看王小川的百川智能,目前付费用户目前还是零,如何做到“弯道超车”呢?风投愿意为王小川的情怀买单,终端用户愿意吗?

除了商业化困境,百川智能还要面对互联网大厂的无情狙击。

过去国内一贯的打法是向C端提供产品,B端(广告商)收费,这一商业模式恐怕很难在大模型时代复刻,对于国内普通用户而言,“AI生成内容”并非大部分人所需。这也揭示了国内大模型初创公司面临的竞争困境:对外技术上要追赶GPT,对内生态上则要与大厂抗衡。

目前国内一线大厂基本都提供大模型定制化、一站式服务来创收,它们原有的办公生态如钉钉、飞书、腾讯办公三件套等也更容易切入AIGC应用场景,而百川大模型的应用场景大多与三家办公体系内的智能场景重叠,百川智能能拿出更具竞争力的差异化产品,对抗互联网大厂吗?

在这种情况下,百川智能为代表的国内大模型创业团队就面临一个紧迫的现实:盈利之前要如何活下去?大模型创业比此前任何互联网创业浪潮烧钱更猛,没有持续不断的融资支撑,大模型团队很难撑下去。随着越来越多人涌入AI赛道,各路资金方出手也越来越谨慎。一个可以参考的数据是,2023年的国内AI领域融资额,创下2015年以来的新低。

目前,百川智能、智谱AI这些估值在10亿美元以上的独角兽融资还算顺利,但它们的估值已被提前透支。有投资人曾质疑,“到了这么高的估值以后,VC、战投到底期待什么样的退出?”

对照当下回看过去,王小川所描述的未来还值得期待吗?

加载中...