本教材由知了传课辛苦制作而成,仅供学习使用,请勿用于商业用途!如进行转载请务必注明出处!谢谢!

Settings配置文件

常用的配置项:

  1. BOT_NAME:项目名称。
  2. ROBOTSTXT_OBEY:是否遵守爬虫协议。默认不遵守。
  3. CONCURRENT_ITEMS:代表pipeline同时处理的item数的最大值。默认是100
  4. CONCURRENT_REQUESTS:代表下载器并发请求的最大是,默认是16。
  5. DEFAULT_REQUEST_HEADERS:默认请求头。可以将一些不会经常变化的请求头放在这个里面。
  6. DEPTH_LIMIT:爬取网站最大允许的深度。默认为0,如果为0,则没有限制。
  7. DOWNLOAD_DELAY:下载器在下载某个页面前等待多长的时间。该选项用来限制爬虫的爬取速度,减轻服务器压力。同时也支持小数。
  8. DOWNLOAD_TIMEOUT:下载器下载的超时时间。
  9. ITEM_PIPELINES:处理itemPipeline,是一个字典,字典的key这个pipeline所在包的绝对路径,值是一个整数,优先级,值越小,优先级越高。
  10. LOG_ENABLED:是否启用logging。默认是True。
  11. LOG_ENCODING:log的编码。
  12. LOG_LEVEL:log的级别。默认为DEBUG。可选的级别有CRITICALERRORWARNINGINFODEBUG
  13. USER_AGENT:请求头。默认为Scrapy/VERSION (+http://scrapy.org)
  14. PROXIES:代理设置。
  15. COOKIES_ENABLED:是否开启cookie。一般不要开启,避免爬虫被追踪到。如果特殊情况也可以开启。

1313人已阅读,今天你学习了吗?

添加新回复