隐藏

ahrefs.com/robot垃圾蜘蛛AhrefsBot封禁方法

发布:2020/9/3 10:52:57作者:管理员 来源:本站 浏览次数:1567

阿里云的服务器今日网站出现大量的 AhrefsBot访问,其useragent为"Mozilla/5.0 (compatible; AhrefsBot/5.2; +http://ahrefs.com/robot/)"。
AhrefsBot是什么
AhrefsBot是一个国外的搜索引擎蜘蛛。不过对你的网站来说除了浪费资源外,没有任何好处。
简单说,AhrefsBot是一个营销网站的爬取蜘蛛,负责分析你网站的链接信息,这个工具对于国内用户来说,有luan用。
详细的介绍你可以查看他们官网的英文解释。https://ahrefs.com/robot
 
该网站是一个国外的但是有中文版,打开中文版显示如上图。其介绍为“增加您的搜索流量的工具,研究您的竞争对手并监控您的利基市场。Ahrefs会帮助你去研究为什么你的竞争对手排名这么高,以及你需要采取什么行动来超越他们。”  所以应该明白他是做什么的了吧。如果不需要我们可以屏蔽。他的ip地址还是很多的所以建议用robots.txt屏蔽。屏蔽代码为:
 
AhrefsBot的IP段
通过对一天的网站日志进行分析,你们猜猜一共有多少个不同的AhrefsBot蜘蛛ip来抓取网站数据?
 ahrefs.com/robot
54.36.150.145
54.36.150.133
54.36.150.111
54.36.150.87
54.36.150.75
54.36.150.49
54.36.150.36
54.36.150.22
54.36.150.27
 
54.36.150.92
54.36.149.106
54.36.148.228
54.36.148.212
54.36.148.176
54.36.148.179
54.36.148.163
54.36.148.155
54.36.148.128
54.36.148.105
54.36.148.59
54.36.148.56
54.36.148.60
54.36.148.30
54.36.148.15
54.36.149.76
 
官方公布的AhrefsBot爬虫IP段如下:
 
54.36.148.0/24
54.36.149.0/24
54.36.150.0/24
 
195.154.122.0/24
195.154.123.0/24
195.154.126.0/24
195.154.127.0/24
 
直接封AhrefsBot ip段
AhrefsBot蜘蛛爬取的站服务器用的阿里云,阿里云后台有安全组可以使用,所以直接屏蔽AhrefsBot的IP段,是最简单粗暴,效果立竿见影的方法。
 
进入阿里云后台,进入你的服务器列表,点击服务器的安全组,配置安全组规则。

 

 

按照上图的方法配置,把下面这些ip段全部添加进去就行了。

使用robots.txt封禁

通常来说,只要是遵循robots规则的蜘蛛或者爬虫,都可以使用robots.txt来禁止它爬取。AhrefsBot官方也说遵守这个规则,不过实际上是如果你不是一开始就添加了这个规则,你都不知道它蜘蛛什么时候才会重新爬取你的robots.txt文件来修改抓取规则。

所以暴力点,直接封IP比较快。如果要添加,规则如下:

User-agent: AhrefsBot

Disallow: /