13
2025
03
21:07:23

Nginx通过UserAgent屏蔽网页爬虫

背景

有的网站不需要搜索引擎来爬取,大量的蜘蛛爬取占用了服务器资源。

修改配置

在nginx.conf中的server层加入以下内容:

#禁止Scrapy等爬虫工具的抓取
if ($http_user_agent ~* "Scrapy|Sogou web spider|Baiduspider|bingbot|Bytespider|SemrushBot|YisouSpider") {    
return 403;
}

添加后重启nginx

测试

curl的-A 可以让我们随意指定自己这次访问所宣称的自己的浏览器信息

#curl -I -A "BaiduSpider" www.test.com   (模拟浏览器头信息)




推荐本站淘宝优惠价购买喜欢的宝贝:

image.png

本文链接:https://sg.hqyman.cn/post/9574.html 非本站原创文章欢迎转载,原创文章需保留本站地址!

分享到:
打赏





休息一下~~


« 上一篇 下一篇 »

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

请先 登录 再评论,若不是会员请先 注册

您的IP地址是: