AI+搜索|关于搜索的想象,和目前估值最高的生成式搜索引擎Perplexity
文章转载来源:AIcore
原文来源:深思SenseAI
技术的变革会影响信息的收集与分发机制。印刷术发明后人们使用索引和目录来查找图书,互联网出现后人们使用关键词来查找链接,Google 创始人拉里·佩奇发明的 PageRank 算法、以及意图识别等算法策略优化,旨在通过以算法为中心的任务式分发机制帮助用户找到更好的网页链接。
AI 让信息搜索不再是关键词和链接的单向匹配,而是一种直观而精确的双向对话。Perplexity AI 最早将这一愿景变为现实,成立一年估值达 5 亿美金。它是一个由前 Open AI 员工创建的会话型搜索引擎,让人窥见到一个搜索不仅仅是关于发现,也是关于理解的未来。本文从技术变革下搜索的发展历史出发,深入解读目前 AI+搜索头部产品 Perplexity AI,看搜索与搜索引擎的边界。
产品优先:Perplexity 在初期使用了大量 API 来构建产品,团队专注产品层面的优化,通过深刻的产品洞察来弥补模型能力不足导致的潜在问题,再去自研基础设施来降低成本。
信息互动:在尽可能减少幻觉的条件下,用 LLM 辅助和外部信息互动,Perplexity 是一个很好的例子。这种形式不局限于搜索引擎,任何需要和外部信息互动的场景,都可以期待 LLM 的重构。
搜索的边界:小红书、公众号等平台对内容的迁移和封闭限制了全局搜索引擎的发展。然而搜索本身对大量信息进行搜集、过滤、总结、整合等工作曾经依赖搜索主体,如今 AI 能够将搜索过程可互动式外化。搜索引擎成为一种新的内容平台。
AI Native 产品分析
Perplexity AI
1. 产品:Perplexity AI
2. 产品上线时间:2022 年 12 月
3. 创始人:
- Aravind Srinivas:CEO,曾在 UCB 就读博士主攻强化学习和图像识别。博士期间,曾在 OpenAI、DeepMind 和 Google 实习,21 年毕业后加入 OpenAI 研究语言模型和扩散模型
- Denis Yarats:CTO,曾在 Quora 担任机器学习工程师,在 Meta AI 研究院研究强化学习、最优化控制和机器人
- Andy Konwinski:联合创始人,也是 Databricks 的联合创始人
- Johnny Ho:首席战略官,此前是量化交易员
4. 产品简介:
Perplexity 是用于信息发现和满足好奇心的瑞士军刀。它通过回答问题的方式,帮助用户总结内容、探索新主题并激发创造力。
5. 发展历史
- 2022 年 8 月,Srinivas 离开 OpenAI 后创立了 Perplexity
- 2022 年 9 月,获得 310 万美元种子轮融资
- 2022 年 11 月,ChatGPT 上线
- 2022 年 12 月,Perplexity AI 上线
- 2023 年 3 月,Perplexity 在 A 轮融资中筹集了 2560 万美元,估值 1.5 亿美元
- 2023 年 10 月,推出订阅制服务后 ARR 达到 300 万美元,完成由 IVP 领投的新一轮融资,估值达到 5 亿美元
01. 搜索的演变
从搜索的历程发展可以追溯到人们对信息的需求和查找分发方式的演变。
搜索的概念最早可以追溯到印刷术的出现,当时人们开始使用目录和索引来帮助他们查找书籍和文献。1990 年代中期,Yahoo! 等早期搜索引擎开始出现,它们使用关键词匹配的方式帮助用户查找网页,但搜索结果并不总是准确或完整。
1998 年谷歌成立,创始人之一拉里·佩奇发明。PageRank 算法,通过评估网页之间的链接数量和质量,将给定网页的权重和重要性进行排名。此后,网站所有者需要了解 PageRank 算法以及其他搜索引擎的排序因素,以便优化网站以提高其在搜索引擎中的排名。
搜索引擎优化(SEO)专家开始研究关键词的选择和使用、网站内容的优化、外部链接的建设、用户体验的改善等策略,以适应谷歌的发展。他们努力通过技术手段和优化方法,使网站在搜索引擎结果页面(SERP)中获得更高的可见性和排名。
参考我们之前的文章顶级风投Greylock:会最先被AI重塑的高潜市场,Greylock 提出 AI 使得原来以算法为中心的信息分发网络变成去中心化式人与人的双向网络。于搜索而言,搜索有望不再是单边的信息查询和SEO策略优化,而成为一种双边的信息交互。
02. Perplexity AI 是什么?
Perplexity 几乎是最早推出的生成式搜索引擎,或者叫做回答引擎。借用大模型的力量,用户可以直接提问,Perplexity 会直接从各种筛选过的来源进行总结,提供准确、直接的答案,同时提供来源参考。
当 ChatGPT 刚推出时,它凭借出色的自然语言理解能力和生成丰富回答的能力,曾一度让人们认为生成式 AI 可能会取代传统搜索引擎。然而,随着用户体验中的幻觉现象、无法联网和知识更新滞后等问题逐渐显现,人们开始回归现实,转向由大型模型增强的搜索引擎,例如 Perplexity 和 Bing Chat。这些“回答引擎”利用 RAG(Retrieval Augmented Generation)技术,对搜索引擎的结果进行处理,以减少误导信息并提高信息的及时性。除了 Perplexity 和 Bing Chat,其他一些曾企图挑战 Google 搜索引擎霸主地位的平台,如 You.com 和 Neeva,也转向了 AI 增强的答案生成模式。
与传统搜索引擎相比,回答引擎主要在以下几个方面进行了优化:理解用户问题的能力、总结搜索结果的能力、保留搜索结果索引的能力,以及扩展用户问题的能力。这些优化旨在降低用户使用门槛,节省用户在不同网页上搜索和浏览的时间,确保搜索结果的可靠性,同时为用户提供深入挖掘问题的能力。
正是因为这些特点,当 Bing Chat 于今年 2 月正式推出时,微软 CEO 纳德拉对其寄予了厚望,将其视为开启搜索新时代的重要标志。他认为这是对谷歌在搜索引擎市场长达 20 年的主导地位的前所未有的挑战。然而,到了 10 月的谷歌反垄断案时,纳德拉表现出了转变,坦诚 Bing Chat 尚有许多待解决的问题,且在市场份额竞争中未达预期效果。全球范围内,搜索引擎市场的格局依旧稳定。
尽管在访问量上 Perplexity 仍远不及主流搜索引擎,而且也有许多批评声音将其视为仅是表面包装,但自推出以来,Perplexity 一直保持稳定增长,在同类产品中保持最高访问时间,其表现甚至超过了有多年 AI 结合搜索引擎经验的 You.com。在 a16z 发布的月访问量前 50 的 GenAI 产品中,PerplexityAI 排名第十。从 3 月到 10 月的半年时间内,Perplexity AI 每天处理的搜索请求量增长了 6~7 倍,目前每天要处理数百万个搜索请求。
即使在其他大型模型纷纷引入联网能力后,Perplexity 仍保持良好发展势头。因此,本文将结合实际使用体验,探讨许多人眼中的 GPT “套壳”产品 Perplexity 的独特之处。
03. Perplexity 如何脱颖而出?
Perplexity的三大优点:迭代速度快、效果佳以及功能创新
迭代速度快,每周一个小更新
如下图所示,自 Perplexity 推出以来,其重要的更新和里程碑事件一目了然。在不到一年的时间里,Perplexity 已经实现了多次关键的版本迭代。特别是在更新频繁的时期,几乎每周都会推出新的功能,这些更新主要集中在产品功能层面,直到今年 10 月,Perplexity 才低调推出了旨在降低运行成本的大型模型。
分析推特中 Perplexity 筛选出涉及到的版本更新相关内容详情和数据,包括各个版本的发布日期和相关推文的点赞次数,可以看出点赞最多的是去年年底推出的 Twitter 搜索引擎。团队对搜索具有敏锐的产品洞察,在 GPT-3.5 推出后的半个月就上线了推特基于 SQL 的搜索分析引擎。点赞数其次的是新模型推出类动态,而 Perplexity 团队更为重视和投入的产品更新迭代类内容关注较少。
可以推测,目前大众对 AI+搜索类产品的认知,还处在同类产品的尝新,尚未进入对产品功能的深入体验或形成显著的用户粘性。
功能创新,补足回答引擎的短板
「Devil in the details.」,Perplexity 的卓越搜索体验得益于其众多创新功能,尤其是 Source Edit(信源编辑)、Focus Search(专注模式)和 Perplexity Copilot。
Perplexity 并不总是都表现良好。例如,在查询“Twitter 的 CEO 是谁”时,尽管同类产品均能正确回答 Linda Yaccarino,Perplexity 却有时会答错。这一错误源于其引用了未及时更新的维基百科条目。针对此类错误,Source Edit 功能可提供有效解决方案。
Source Edit 允许用户编辑参考信源并重新搜索。目前,这一功能仅支持删除而非添加信源,有效减少无关信源对结果的干扰,通过人工的方式,对潜在的不稳定性进行修正。可以看到,排除了包含错误信息的维基百科后,Perplexity 能够给出正确答案。
此外,用户可通过 Focus Search 功能,在开始新搜索前限定搜索范围,提升搜索效果。该功能在学术搜索、数学计算、YouTube 视频和 Reddit 论坛搜索等方面进行了特别优化。特别是 YouTube 视频搜索,其引用可直接链接到视频中相关内容的准确时间点。
Perplexity Copilot 则增强了搜索结果的准确性和可信度。作为用户的搜索助手,Copilot 提供更细致、深入和个性化的回答。
对于同样的问题,通常 Copilot Search 参考的信源更多、回答更长、展示方式更结构化,同时在搜索过程中,Copilot 会对用户的问题含义进行延伸,在一次用户的搜索中,实则进行了多次对于不同关键词的搜索。如下图所示,使用 Copilot 搜索同样的关键词,Copilot 会自动对用户的意图进行延伸,使用不同的关键词进行搜索并最终总结。
个性化的搜索。Perplexity Copilot 不仅深入理解用户意图,还根据用户的个人情况提供定制化内容。例如,询问餐厅推荐时,会自动要求用户补充必要的信息,如餐厅所在的地点;同时,Copilot 会根据用户的 AI Profile 所需补充信息,如下图(右)可以看见,在作者在 AI Profile 中提前设置好了自己所在城市后,Perplexity Copilot 便不再要求用户补充地址信息;最后,当 Copilot 要求用户补充信息时,会采用更加 LLM Native 的交互方式,会根据要求的补充信息类型,Copilot 自主选择最合适的交互方式来让用户输入,如下图(右)就自动生成了一组复选框。
Perplexity Copilot 使用了 Fine-tuned GPT-3.5 而非 GPT-4。根据测试,Fine-tuned GPT-3.5 在大多数情况下(69%)能提供与 GPT-4 同等甚至更好的性能,甚至在少数问题上,能够提供比 GPT-4 更好的表现。
Perplexity 的愿景不仅是成为更好的搜索引擎,而是打造一个全面的知识中心,助力用户轻松学习新知。为此,Perplexity 自开发之初便专注于优化其引用信源和发散性问题处理能力。
9 月份,Perplexity 围绕此愿景推出了“合集(Collections)”功能。在 Perplexity 中,每次查询对话被视作一个线程(Thread),而合集则是线程的容器,功能类似于收藏夹。合集不仅能整理线程,还能围绕主题拓展新问题,邀请协作者共同构建知识社区。
效果优秀,快速、准确、可靠
Perplexity 在多个方面展现出卓越的性能,尤其是在内容的可靠性、信源的丰富性、响应速度的快捷性以及内容的稳定性方面。
首先,其内容的可靠性和信源的丰富性尤为显著。以搜索 OpenAI 最新的 Dev Day 更新为例,在 Bard、Perplexity、GPT4 和 You.com 中进行搜索,Perplexity 不论是用中文还是英文,均展现了最为全面的信源引用和最佳的搜索结果。GPT4 虽然依赖正确的关键词,但其结果质量紧随其后,而 Bard 和 You.com 在中英文两种搜索中表现并不全面。
此外,Perplexity 在结果的稳定性和生成速度上同样表现出色。与其他竞争对手相比,Perplexity 在反复查询相同问题时,基本能够基于相同信源提供一致的答案,有效降低了大模型的不确定性。同时,其生成答案的速度在所有同类产品中也是最快的。
除了从用户体验角度定性分析,也有学者尝试对回答引擎的效果进行定量评估。今年 4 月,Stanford 的 Nelson F. Liu 发表了论文《Evaluating Verifiability in Generative Search Engines》,对 Bing Chat、Perplexity、YouChat 和 Neeva 等几大搜索引擎进行了评估。这篇论文从四个维度来测试:文本流畅度、感知有效性、引文回忆率和引文精确度。综合来看,Perplexity 在这项评估中表现最为出色。
04. Perplexity AI 的体验不足
基于上述种种优点,有的用户认为 Perplexity AI 已经完全可以代替传统的搜索引擎;而也有用户则给出了完全相反的意见,认为其信源不足、结果价值低,难以替代传统搜索引擎。
评价上的落差可能是源自于对回答引擎的高期望和使用习惯的不适应。
期待值高
论文 Evaluating Verifiability in Generative Search Engines 的作者 Nelson F. Liu 认为,整体来说这类回答引擎远远没有到达他们预期的表现。现存的回答引擎,生成的结果通常都很流畅并且「看起来」很有信息量(informative),但是在引文回忆率和引文精确度上都表现不佳 —— 仅有 51% 生成的陈述得到了引用内容的充分支持,而只有 74.5% 的引用能正确支持生成的结果。
论文作者还发现,生成的内容在引用准确度上和有效性上,存在明显的负相关。这很有可能是为了降低幻觉的一种代价,体现在,生成的结果常常是直接复制引用的内容,或者的引用内容的改写(Paraphrase),当信源实际上和用户的问题并不相关时,这种问题就会非常明显。
举例来说,当用户提问“引导社会进化的动力是合作还是竞争?”时,回答引擎可能会引用动物进化中关于合作和竞争的内容。同时,作者认为研究结果并不能完全评估回答引擎的效果,因为研究聚焦在回答引擎结果的可验证性,而不是实用性,重点在引用值得二次验证以及引用准确,假设了用户要基于生成的结果,用引用去二次验证搜索结果。然而,用户期待的理应是无需二次验证,直接获得答案,而这种期待往往会落空,因为回答引擎善于总结,不善于缝合。
对于绝大多数事实类的问题,Perplexity AI 的表现非常好,可以做到无需外部链接即可完成搜索目标,如搜索 OpenAI Dev Day 更新,SpaceX 火箭发射情况,塞尔达传说某神庙攻略等。这类问题的特点是,如果用传统的搜索方式,通常打开单个网页即可得到答案,回答引擎则参考多个信源,总结出最重要的信息,缩短称述。
但有时候,生成的结果也会给人一种看起来很有道理,但是没什么用的感觉。没有找到真正有用的信息的原因可能在于这部分信息密度极低,即便是 AI 读取全部数据也无法高效地抽取精华。那些经常被提及的东西,也更有可能是 AI 认为重要且最先习得的东西。如果那目前 transfomer 的自回归模型来看似乎也符合逻辑,经常出现的高频信息会提高被预测为下一个词的概率。「当 Perplexity 给出的答案,没有比我已知的内容更有意义时,Perplexity 表现得像是找不到答案或者答案根本不存在,但在 Google 上搜索时,我还是能在第一页中找到一些我真正想要的,更深层次的东西」。
总而言之,用户对于不同的搜索问题,期望得到不同颗粒度的答案,但是 Perplexity AI 在给出答案时并不能充分考虑这一点,产品本身试图通过给出更换模型、引入 Copilot 和编辑搜索关键词等选项来克服这个问题,但仍然需要更长期得优化。
使用习惯不同
搜索引擎优化 SEO(Search Engine Optimization)的研究由来已久,是一种通过优化网站内容来提高网站在搜索引擎结果中的排名的过程,关于搜索,有一些有意思的统计:
1. 69.6% 的搜索关键词长度在 4 个词以下
2. 65% 的情况下,用户会在 10 秒内从搜索结果中选择要跳转的页面
3. 25.6% 的情况用户不会点击任何搜索结果
4. 不足 1% 的情况用户会浏览搜索结果的第 2 页
5. 59% 左右的用户一次点击就能解决问题
注:统计结果仅参考量级
大多数的搜索场景,都是用简单的关键词,用极短的时间从搜索结果中筛选,在小于等于一个页面内解决问题。这种习惯迁移到回答引擎上,则会很不适应,因为这类回答引擎搜索依赖对问题进行准确描述、提示工程和多轮对话来优化结果;同时生成结果会需要比传统搜索引擎更长的时间,Perplexity AI 通过在生成结果时先显示信源,再进行生成的方式来弱化这个问题,但仍慢于传统方式。
期待值高,使用方式不同就会导致,对于传统搜索中打开一个页面就可以解决的快速搜索问题,回答引擎需要用更详细的搜索条件、更长的时间来得到类似的结果;对于依赖多个页面交叉验证补充的复杂搜索问题,回答引擎则显得信源不全或能力不足,无法给出足够有价值的信息,需要用户使用传统搜索引擎重新搜索。
05. 能否颠覆搜索引擎?
虽然回答引擎备受期待,但要颠覆传统搜索引擎仍是一个遥远的目标。
以 2019 年成立的 Neeva 为例,这家公司曾是 Google 的潜在挑战者之一,投入大量资源构建自己的索引和排序系统,旨在提供比 Google 更好的用户体验,且不含广告。Neeva 在用户研究和内部指标上曾接近 Google 的水平,但仅两年后即关闭了面向普通消费者的业务,原因是缺乏足够用户。这表明,仅靠优化用户体验难以改变搜索引擎市场的格局。
过去,搜索引擎建立了深厚的壁垒。微软的 CEO 纳德拉和 Neeva 的联合创始人拉马斯瓦米都表示,搜索引擎是互联网中最难攻破的市场,绝大多数用户都不会去更改他们的默认搜索引擎,同时,越多用户使用默认搜索引擎(Google),那么就可能通过大量用户数据持续优化搜索结果,其领先地位似乎难以撼动。
除了传统搜索引擎已经建立的壁垒外,回答引擎还有其他基于大模型的产品的常见问题要解决,如成本和反馈机制。
当前的回答引擎大多基于传统搜索引擎和大模型的 API 构建,自身更专注于模型和 RAG(Retrieval-Augmented Generation)的优化;同时,回答引擎产品普遍没有找到合理的商业模式,Perplexity AI 的许多竞争对手产品仍然完全免费,而仅靠订阅机制的收入,难以满足对 API 的大量需求,阻止了现阶段回答引擎完全替代传统搜索引擎的可能性。目前,Perplexity AI 已经在尝试构建自己的 WebCrawler、Search index 和 LLM 来应对不断增长的的查询请求来降低成本。
此外,回答引擎也没能找到像搜索引擎或者信息流推荐一样,将收集用户反馈融入产品正常使用中的产品形态,也就很难基于先发优势和用户积累,打造数据飞轮。根据 CEO Aravind Srinivas 所述,只有 10% 左右的用户会提供反馈,同时用户可能因为各种原因不喜欢 AI 生成的结果,用户不喜欢并不代表结果生成的不好,很有可能只是因为 AI 的总结中丢失了一部分用户希望的结果,正如先前所说,用户对于总结的预期并不稳定和一致,AI 认为的好未必是人类认为的好。在这点上,Perplexity AI 不能像谷歌或者 Tiktok 一样,用户的每一次点击或者喜欢都能用于进一步优化产品,仍然依赖一些外部 Contractor 对用户数据进行标注,来对模型进一步优化。
06. 不止是搜索引擎
真正威胁搜索引擎的可能不是另一种工具,而是内容的中心化式迁移和封闭。
在过去十几年中,用户发布的内容从开放的,对搜索引擎索引支持良好的论坛、博客等,迁移到了对搜索引擎索引支持不那么好的平台,如公众号、小红书、抖音、Instagram,Twitter 甚至 Amazon 等,这些平台已成为许多人在特定场景下的首选搜索工具。未来,这些生态很有可能出现自己的 AI 搜索助手。不止是内容平台,飞书和 Notion 等知识管理平台,也有计划推出自己的 AI 搜索助手,体验和使用方法和回答引擎类似,但是搜索范围聚焦于私有数据库。
无论在哪种场景下,AI 驱动的搜索都是用户和外部信息互动的助理,理想状态下,AI 驱动的搜索将帮助用户和信息进行一种直观的双向对话,而非基于关键词的单向匹配。
除了模型本身对信息的理解和处理能力,数据库的大小同样会是限制回答引擎类产品天花板的重要因素之一。内容平台等封闭的平台对搜索引擎的冲击,同样会对回答引擎的未来产生影响,如何打造独一无二的数据库,或者接入更多的外部数据库,可能是在产品和模型能力之外的发展重点。举例来说,Rewind AI 某种程度上,是否也可以视为一种基于用户录屏数据的搜索产品?
Perplexity AI 的团队同样意识到了搜索引擎的壁垒和内容变化的趋势,因此并没有选择在垂直领域的方向去做产品来竞争,如购物助手或者生活助手,因为在数据上无法和 Amazon 和 Tiktok 竞争,而是选择在成为知识内容平台的方向进行探索。
通过让用户可以分享和保存自己和 Perplexity AI 的多轮对话流程,来试图建立一个内容社区;尽管目前 AI 在表达能力上表现出色,但 AI 产生的大量看似可靠,却并不实用的内容,限制了其成为知识平台的潜力。
但是好的方面是,搜索引擎仍然在大量场景内,帮助用户解决实际问题,搜索引擎和回答引擎仍能提供可靠的价值。人们常说,搜索本身即是一种能力,需要对大量信息进行搜集、过滤、总结、整合等工作,而这些对信息的加工是过去的搜索流程中,存在于搜索主体的工作流中但是无法被传播的,更多都在搜索主体的脑内和个人知识库中进行处理和加工。而随着 AI 代替用户对信息完成加工的过程并展示,搜索的过程本身也具备成为一种可互动的内容形式的潜力,这或许会是 Perplexity AI 成为一种内容平台的可能性。
参考材料
https://youtu.be/ix4_rdogcVI