新浪财经

3B大战 Robots协议的争论毫无意义

中国经济时报

关注

近期,由于国内互联网上出现了一个新的搜索引擎竞争者,关于搜索引擎是否应当遵守Robots协议的问题成为了业内人士讨论的热点。一些自称是专家的人宣称:Robots协议是搜索领域的行业规范,触犯Robots协议是没有底线的行为,不禁不合法,而且还会泄露用户隐私。

笔者也马马虎虎算是个IT工程师,不过主要研究方向是通信技术,在计算机和互联网领域,只能说是比外行人强点,但比内行人还差得多,充其量是个半专业人士。出于好奇,本人查阅了一些和Robots协议相关的资料以及近期的各种热门评论,结果惊讶的发现,那些所谓的“专家”原来绝大多数都是“伪专家”,不过是利用人们对“Robots”的陌生和对“专家”的信任在混淆视听。

虽然我顶多算是半个专业人士,但还是希望能说几句真话,希望能够帮助读者更加接近真相。

Robots协议的由来

早期的互联网主要是“用户-网站”模式。用户通过网站获取信息,网站通过吸引用户点击来实现广告收入。不过,当Google把搜索引擎变成一种成功的商业模式之后,很多网站原有的商业模式遭到了严重的破坏。因为很多用户会停留在搜索引擎的搜索结果之中,不再访问信息的源头或发布信息的网站。

于是,为了维护自身的利益,一些欧美大型网站联合起来与Google谈判,要求Google必须做到“有所为有所不为”,于是就有了“Robots协议”。

Robot,又称Spider,是搜索引擎自动获取网页信息的电脑程序的通称。Robots协议的核心思想就是要求Robot程序不要去检索那些站长们不希望被直接搜索到的内容。将约束Robot程序的具体方法规范成格式代码,就成了Robots协议。一般来说,网站是通过Robots.txt文件来实现Robots协议。

Robots协议的影响

国内使用Robots协议最典型的案例,就是淘宝网和新浪微博拒绝百度搜索。不过,绝大多数中小网站都需要依靠搜索引擎来增加流量,因此通常并不排斥搜索引擎,也很少使用Robots协议。

一些站长和程序员还把Robots协议当成偷懒的工具:对于那些本来需要加密保存的信息或限制访问的内容,他们只是写个了Robots.txt文件,要求搜索引擎不要去访问,之后便以为万事大吉。这不是典型的掩耳盗铃吗?

不过,Robots协议最深远的影响还是帮助Google和百度这样的垄断搜索引擎遏制后起的竞争者。这是因为,Google当年在制定这个协议时,特意留下了后手,即:协议中不仅包括是否允许搜索引擎进行搜索的内容,还包括允许谁和不允许谁进行搜索内容。Google和百度在实现了垄断地位之后,就利用这些排斥性规则挡住了后来的进入者。

微软的必应,国产的搜狗、搜搜等搜索引擎,虽然运行多年,但搜索结果始终差强人意,并不是因为他们的技术能力真的不如百度,很大程度上就是受到了Robots协议的影响。

加载中...