如何判断头条搜索的蜘蛛是否真实

前段时间今日头条推出自己的搜索引擎产品:头条搜索 ,用了一下各方面还是不错,但是并没有放在心上,一是因为只有手机页面,域名还比较长,懒得输入;二是有些功能还不算完善;三是因为不确定这个搜索产品会不会被头条中途腰斩。后面又稍微关注了一下,是因为一部分小站被头条的爬虫给爬死了,让一部分站长苦不堪言,在网上发了一些牢骚。后面也就没怎么关注了,终其原因是没有看到头条搜索的爬虫官网和文档说明,网上能找到的信息屈指可数。

头条搜索

不过前几天在坛子里面看到有人说头条搜索站长平台内测,同时看到今日头条客户端内测版在首页重点突出搜索这个功能。看样子头条想在搜索方面找到新的突破点,按照头条现在的体量,足够获取作为站长们新的关注点。头条搜索的出现,多多少少为站长提供了新的机遇,也为搜索市场带来了新的竞争,这是好事。

怎么区分头条搜索的爬虫?

翻看了旧的网站日志,头条搜索的爬虫最早爬取我站点的时间是八月份,这跟我我重新回归本站的时间基本相符。那时候抓取我站点的两个“头条”爬虫主要是 BytespiderToutiaospider 两个蜘蛛,其中又以 Toutiaospider 最为频繁,我一度以为 Toutiaospider
就是头条的蜘蛛,网上咨询过他人、也找过其他资料,得到的都是含糊其辞的答案。

现在在头条搜索站长平台屈指可数的文档中找到答案,头条承认的搜索蜘蛛是首字母为大写的 Bytespider, 根据头条搜索的文档可知头条的蜘蛛ip段有6个,具体是下列表格中的内容:

 110.249.201.0/24 
 110.249.202.0/24 
 111.225.148.0/24 
 111.225.149.0/24 
 220.243.135.0/24 
 220.243.136.0/24

怎么判断蜘蛛是否伪造?

站长通过nslookup测试了头条提供的ip段范围内的ip,皆可返回带*.crawl.bytedance.com的返回值。也就是说,当你网页日志中出现了头条搜索的爬虫,而你又无法判断是否是真实的爬虫,这个时候就可以通过ip对比上述的ip段,是否在所属的ip段范围之内,或通过nslookup查看返回值,以进行判断是不是真实爬虫。

Toutiaospider是不是头条搜索的爬虫?

前面站长说了,头条搜索文档中表明了 Bytespider 为头条的爬虫,找遍网络也没看到 toutiaospider是不是头条的爬虫,只有少数的帖子将这个爬虫臆测为头条搜索的爬虫。根据网上帖子提供的ip对比,ip并不在官方文档提供的ip段之范围之内,nslookup查询也没有返回*.crawl.bytedance.com这个类型的值,基本可以判断这个不是头条搜索的爬虫,可根据自己的需要进行屏蔽。

有些读者不喜欢细看全文,所以最后再强调一遍,避免错过最为重要的结论:

 Toutiaospider 不是头条搜索的爬虫, 以大写开头的 Bytespider 才是头条搜索的爬虫