给大家分享一些国内外常见搜索引擎的蜘蛛判断方法,以免在进行访问控制时误杀,导致收录下降、掉排名等SEO问题。
一、搜索引擎蜘蛛爬虫判断方法
1.User Agent判断
通常情况下这些爬虫都有固定特征的User Agent(UA),下面的部分将会分享各家搜索引擎的UA特征。然而User Agent是请求头中的一个选项设置,是可以伪装的,这个方法只能告诉我们,这个请求/访问/IP不是爬虫,而无法确切的告诉我们它是,所以通过User Agent判断请求的发起者是否是搜索引擎爬虫的方式是不靠谱的。
2.IP判断
此外,一些搜索引擎都将自家的爬虫IP公开,我们直接查询就可以了,即使有些未公开,也能在网络上找到,接下的一部分将分享各家搜索引擎的爬虫IP段,数据来自于网络,部分来自于小牛资源网根据自己网站日志整理收集的一些常见搜索引擎的IP地址段。
3.反查IP判断
搜索引擎的IP一般还有其他的一些特征,通过DNS 反查IP的方式来判断某只spider,会显示一些具有明显特征的主机名(name字段),常用蜘蛛的域名都和搜索引擎官网的域名相关,例如∶百度的蜘蛛通常是baidu.com或者baidu.jp 的子域名,google爬虫通常是googlebot.com的子域名,微软 bing搜索引擎爬虫是search.msn.com 的子域名,搜狗蜘蛛是crawl.sogou.com的子域名。
对于判断IP是否是属于搜索引擎的蜘蛛,一般来说这种方法是最靠谱的方法。
对于反查IPLinux下用host IP , windows用nslookup IP,Mac 下用dig IP来进行主机-IP反查。
二、谷歌搜索引擎蜘蛛爬虫
1.google搜索引擎蜘蛛爬虫的UA一般为:
Mozilla/5.0 (compatible; Googlebot/2.1;+http://www.google.com/bot.html)、Googlebot/2.1(+http://www.googlebot.com/bot.html)、Googlebot/2.1(+http:// www.google.com/bot.html)、Googlebot-Image/1.0,其中最后一个是google 图片搜索蜘蛛爬虫。
2.google搜索引擎爬虫的IP段为∶66.249.、203.208.60.、216.239.、66.102.、64.233.、72.14.
三、百度搜索引擎蜘蛛爬虫
1.目前,百度搜索蜘蛛对外公布的UA为︰
移动 UA: Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,likeGecko) Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html) PC UA: Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
新增渲染 UA:
移动 UA: Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 likeMac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html) PC UA:Mozilla/5.0 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)
2.百度爬虫的IP段比较复杂,大概有爬取网页的、巡逻蜘蛛、准备来抓取、抓内页、抓权重的等等,这里小牛云简单给个汇总的:123.125.、180.76.5.、220.181.108.、220.181.7.、220.181.124.、220.181.125.、111.206.此外,百度的Baiduspider IP 的反查hostname都是以.baidu.com或.baidu.jp 的格式命名,一般伪造的蜘蛛都是以伪造百度蜘蛛为主,着重判断下即可。
四、搜狗搜索引擎蜘蛛爬虫
搜狗搜索引擎UA为Sogou web
spider/4.0 (+http : / / www.sogou.com/docs/help/webmasters.htm#07)、图片蜘蛛:Sogou Pic Spider/3.0 (+http : / / www.sogou.com/docs/help/webmasters.htm#07)
2.搜狗蜘蛛IP段: 123.126.113.79-123.126.113.191、220.181.89.190、220.181.89.189、218.30.103.155、61.135.189.75、220.181.94.228、61.135.189.74、220.181.89.157.220.181.89.165、220.181.89.183、220.181.89.194、218.30.103.80
五、360搜狗搜索引擎蜘蛛爬虫
1.360搜索蜘蛛爬虫的UA为:
Mozilla/5.0(windows NT 6.1; wOw64)ApplewebKit/537.36(KHTML, like Gecko) Chrome /50.0.2661.102Safari/537.36; 360Spider
2.360搜索社区认证的360so蜘蛛IP段:180.153.232.、180.153.234.、180.153.236..180.163.220.、42.236.101.*、
42.236.102.、42.236.103、42.236.10.、42.236.12.、42.236.13.、42.236.14.、42.236.15..42.236.16.、42.236.17.、42.236.46.、42.236.48.、42.236.49.、42.236.50.、42.236.51.42.236.52.、42.236.53.、42.236.54.、42.236.55.、42.236.99.*
六、神马搜索引擎蜘蛛爬虫
1.神马Spider的user-agent为 : Yisouspider,因为历史原因此user-agent名称将会继续使用。
2.神马Spider的ip地址是一组ip池,会动态变,官方未列举,一些可能神马蜘蛛的IP︰42.156.136.-42.156.139.、42.120.160.42.120.161.
七、Bing 搜索引擎蜘蛛爬虫
微软Bing 蜘蛛爬虫的UA是
Mozilla/5.0 (compatible; bingbot/2.0;+http : / /www.bing.com/bingbot.htm)
2.一些IP段是207.46.13.157.55.39.、40.77.167.
八、Yandex搜索引擎蜘蛛爬虫
Yandex是俄罗斯的搜索引擎,其UA是
Mozilla/5.0 (compatible; YandexBot/3.0;+http: / / yandex.com/bots)
2.一些IP段为:37.9.113.37.9.87.、93.158.161..178.154.244.、213.180.203.、141.8.142.、5.255.250
还没有评论,来说两句吧...