HQY

Nginx通过UserAgent屏蔽网页爬虫

有的网站不需要搜索引擎来爬取，大量的蜘蛛爬取占用了服务器资源。

在nginx.conf中的server层加入以下内容：

#禁止Scrapy等爬虫工具的抓取
if ($http_user_agent ~* "Scrapy|Sogou web spider|Baiduspider|bingbot|Bytespider|SemrushBot|YisouSpider") {    
return 403;
}

添加后重启nginx

curl的-A 可以让我们随意指定自己这次访问所宣称的自己的浏览器信息

#curl -I -A "BaiduSpider" www.test.com   （模拟浏览器头信息）

推荐本站淘宝优惠价购买喜欢的宝贝:

本文链接：https://sg.hqyman.cn/post/9574.html 非本站原创文章欢迎转载，原创文章需保留本站地址！

分享到：