万事屋最近受到老多攻击,垃圾蜘蛛就贡献了不少,比如查到一个叫MJ12bot,对收录没贡献,还是不是扫万事屋的登陆口,你这是要干嘛?禁掉完事。
一、Robots.txt阻止蜘蛛访问
robots.txt中添加如下内容:
User-agent: AhrefsBot Disallow: / User-agent: DotBot Disallow: / User-agent: SemrushBot Disallow: / User-agent: Uptimebot Disallow: / User-agent: MJ12bot Disallow: / User-agent: MegaIndex.ru Disallow: / User-agent: ZoominfoBot Disallow: / User-agent: Mail.Ru Disallow: / User-agent: SeznamBot Disallow: / User-agent: BLEXBot Disallow: / User-agent: ExtLinksBot Disallow: / User-agent: aiHitBot Disallow: / User-agent: Researchscan Disallow: / User-agent: DnyzBot Disallow: / User-agent: spbot Disallow: / User-agent: YandexBot Disallow: / User-agent: DataForSeoBot Disallow: /
二、服务器屏蔽蜘蛛IP段
但是有的蜘蛛未必会遵守公约,仍旧爬取网站内容,所以,推荐的做法是在服务器中封禁这些蜘蛛的IP段。
你可以去蜘蛛所属的搜索引擎官网找一下公布的蜘蛛IP段。
三、客户端判定来阻止蜘蛛
如果你是 linux nginx 服务器配置,可以在nginx配置文件里面加个客户端判定,设置禁止哪些客户端禁止访问网站。
以BT宝塔面板为例,宝塔面板可以在“网站”-“网站配置”里加上屏蔽,添加内容如下:
if ($http_user_agent ~* (SemrushBot|python|MJ12bot|AhrefsBot|AhrefsBot|hubspot|opensiteexplorer|leiki|webmeup|DataForSeoBot)) { return 444; }
这些垃圾蜘蛛在来访的时候,只能得到444,没有任何数据,然后就不会再来了。这个设置不会影响用户访问和其它蜘蛛的来访,不用担心百度和谷歌不会收录网站。
声明:本站文章,有些原创,有些转载,如发现侵权侵请联系删除。本站所有原创帖均可复制、搬运,开网站就是为了大家一起乐乐,不在乎版权。对了,本站小水管,垃圾服务器,请不要采集,吐槽君纯属用爱发电,经不起折腾。