网曝百度不顾robots协议擅自抓取微信内容

刚刚收到百度站长平台的通知:爆料促使了百度自查,现在已删除相关内容!

搜狗合作了知乎和微信,乐视贾老板倾家荡产维护版权,大家都在努力创造独家资源,看到微信独家数据,百度这是眼红得坐不住了。

据@郭昂9爆料:百度不顾robots协议擅自抓取微信内容和应用,原文是这样的:

昨天有点事情忙到晚上,突然碰到了一个搜狗的哥们跟我抱怨平安夜还要被迫加班,想到很久没见,想一起吃个宵夜但是没有实现,说是忙不过来,今天又详细的了解了一下,原来微信公众号的数据被百度不顾robots协议大量的抓取和应用,他不得不处理反抓到凌晨,搞得平安夜都只能陪着看”百度spider“度过。虽然自己的微博荒废了很久,但还是不吐为快。

背景是这样子的,微信做了公众账号后,积累了大量高质量的作者和文章,养成了很大一批用户的阅读习惯。腾讯投资搜狗,开放微信数据供搜狗搜索独家使用,这部分数据对用户浏览和阅读需求的满足,能起到很大的帮助,也算是在搜索体验趋向于同质化的今天,能有效的带来“差异化”的体验点。所以,搜索靠腾讯的资源,将微信的公众号文章嵌入了搜狗搜索中,还开发了基于公众号的推荐应用微信头条。

当然,这种优质的独家数据是要进行独家保护的,搜狗也就用了搜索引擎常用的robots协议,对相应目录进行了限制,不允许其他搜索引擎抓取。关于robots协议,这是搜索引擎行业约定俗成的行规,可以限制其他搜索引擎抓取和索引相应内容。

robots协议 百度抓取 微信内容

搜狗搜索的爬虫协议对网站抓取内容的范围是做了明确规定的,百度爬虫没有任何权利抓取搜狗独家微信内容资源,这是事实。

未经允许不得转载:王刚博客 » 网曝百度不顾robots协议擅自抓取微信内容

赞 (0) 打赏

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏