如何禁止MJ12bot、AhrefsBot、SemrushBot等垃圾蜘蛛爬网站?

万事屋最近受到老多攻击,垃圾蜘蛛就贡献了不少,比如查到一个叫MJ12bot,对收录没贡献,还是不是扫万事屋的登陆口,你这是要干嘛?禁掉完事。

一、Robots.txt阻止蜘蛛访问

robots.txt中添加如下内容:

User-agent: AhrefsBot
Disallow: /
User-agent: DotBot
Disallow: /
User-agent: SemrushBot
Disallow: /
User-agent: Uptimebot
Disallow: /
User-agent: MJ12bot
Disallow: /
User-agent: MegaIndex.ru
Disallow: /
User-agent: ZoominfoBot
Disallow: /
User-agent: Mail.Ru
Disallow: /
User-agent: SeznamBot
Disallow: /
User-agent: BLEXBot
Disallow: /
User-agent: ExtLinksBot
Disallow: /
User-agent: aiHitBot
Disallow: /
User-agent: Researchscan
Disallow: /
User-agent: DnyzBot
Disallow: /
User-agent: spbot
Disallow: /
User-agent: YandexBot
Disallow: /
User-agent: DataForSeoBot
Disallow: /

二、服务器屏蔽蜘蛛IP段

但是有的蜘蛛未必会遵守公约,仍旧爬取网站内容,所以,推荐的做法是在服务器中封禁这些蜘蛛的IP段。

你可以去蜘蛛所属的搜索引擎官网找一下公布的蜘蛛IP段。

三、客户端判定来阻止蜘蛛

如果你是 linux nginx 服务器配置,可以在nginx配置文件里面加个客户端判定,设置禁止哪些客户端禁止访问网站。

以BT宝塔面板为例,宝塔面板可以在“网站”-“网站配置”里加上屏蔽,添加内容如下:

if ($http_user_agent ~* (SemrushBot|python|MJ12bot|AhrefsBot|AhrefsBot|hubspot|opensiteexplorer|leiki|webmeup|DataForSeoBot)) {
return 444;
}

如何禁止MJ12bot、AhrefsBot、SemrushBot等垃圾蜘蛛爬网站?

这些垃圾蜘蛛在来访的时候,只能得到444,没有任何数据,然后就不会再来了。这个设置不会影响用户访问和其它蜘蛛的来访,不用担心百度和谷歌不会收录网站。

声明:本站文章,有些原创,有些转载,如发现侵权侵请联系删除。本站所有原创帖均可复制、搬运,开网站就是为了大家一起乐乐,不在乎版权。对了,本站小水管,垃圾服务器,请不要采集,吐槽君纯属用爱发电,经不起折腾。

给TA打赏
共{{data.count}}人
人已打赏
技术宅

这次的安卓锁屏漏洞挺狠啊,是个人都能搞起来

2022-11-13 16:08:41

技术宅

mysql替换字段的方法

2022-11-13 21:27:29

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索