3B大战 Robots协议的争论毫无意义

中国经济时报

《中国经济时报》官方账号 2012.09.2709:23

关注

近期，由于国内互联网上出现了一个新的搜索引擎竞争者，关于搜索引擎是否应当遵守Robots协议的问题成为了业内人士讨论的热点。一些自称是专家的人宣称：Robots协议是搜索领域的行业规范，触犯Robots协议是没有底线的行为，不禁不合法，而且还会泄露用户隐私。

笔者也马马虎虎算是个IT工程师，不过主要研究方向是通信技术，在计算机和互联网领域，只能说是比外行人强点，但比内行人还差得多，充其量是个半专业人士。出于好奇，本人查阅了一些和Robots协议相关的资料以及近期的各种热门评论，结果惊讶的发现，那些所谓的“专家”原来绝大多数都是“伪专家”，不过是利用人们对“Robots”的陌生和对“专家”的信任在混淆视听。

虽然我顶多算是半个专业人士，但还是希望能说几句真话，希望能够帮助读者更加接近真相。

Robots协议的由来

早期的互联网主要是“用户-网站”模式。用户通过网站获取信息，网站通过吸引用户点击来实现广告收入。不过，当Google把搜索引擎变成一种成功的商业模式之后，很多网站原有的商业模式遭到了严重的破坏。因为很多用户会停留在搜索引擎的搜索结果之中，不再访问信息的源头或发布信息的网站。

于是，为了维护自身的利益，一些欧美大型网站联合起来与Google谈判，要求Google必须做到“有所为有所不为”，于是就有了“Robots协议”。

Robot，又称Spider，是搜索引擎自动获取网页信息的电脑程序的通称。Robots协议的核心思想就是要求Robot程序不要去检索那些站长们不希望被直接搜索到的内容。将约束Robot程序的具体方法规范成格式代码，就成了Robots协议。一般来说，网站是通过Robots.txt文件来实现Robots协议。

Robots协议的影响

国内使用Robots协议最典型的案例，就是淘宝网和新浪微博拒绝百度搜索。不过，绝大多数中小网站都需要依靠搜索引擎来增加流量，因此通常并不排斥搜索引擎，也很少使用Robots协议。

一些站长和程序员还把Robots协议当成偷懒的工具：对于那些本来需要加密保存的信息或限制访问的内容，他们只是写个了Robots.txt文件，要求搜索引擎不要去访问，之后便以为万事大吉。这不是典型的掩耳盗铃吗？

不过，Robots协议最深远的影响还是帮助Google和百度这样的垄断搜索引擎遏制后起的竞争者。这是因为，Google当年在制定这个协议时，特意留下了后手，即：协议中不仅包括是否允许搜索引擎进行搜索的内容，还包括允许谁和不允许谁进行搜索内容。Google和百度在实现了垄断地位之后，就利用这些排斥性规则挡住了后来的进入者。

微软的必应，国产的搜狗、搜搜等搜索引擎，虽然运行多年，但搜索结果始终差强人意，并不是因为他们的技术能力真的不如百度，很大程度上就是受到了Robots协议的影响。