Nginx如何现在网络爬虫

Nginx如何现在网络爬虫

Nginx 如何限制网络爬虫程序
判断user_agent,一般爬虫都有google,baidu,sougou这些关键字的,具体的查下看就知道了
这是我以前限制sogou爬虫的设置,不过是基于apache的。两种方法,第一种方法应该也适用于nginx,第二种就要根据nginx的语法来设置了。
方法一:   
在根目录放一个文件robots.txt,但好像不会立刻生效。
   如要禁止sogou的爬虫,可以在robots.txt这样设置
     User-agent:Sogou web spider
     Disallow: /

方法2:
     查看日志,观察浏览器特征,如sogou的特征为“Sogou web spider”,可以在apache里面设置
    setenvif User-Agent "Sogou web spider*" den
      Order deny,allow
      deny from env=den
再看apache日志信息,都是报403