Settings配置文件
常用的配置项:
BOT_NAME
:项目名称。ROBOTSTXT_OBEY
:是否遵守爬虫协议。默认不遵守。CONCURRENT_ITEMS
:代表pipeline
同时处理的item
数的最大值。默认是100CONCURRENT_REQUESTS
:代表下载器并发请求的最大是,默认是16。DEFAULT_REQUEST_HEADERS
:默认请求头。可以将一些不会经常变化的请求头放在这个里面。DEPTH_LIMIT
:爬取网站最大允许的深度。默认为0,如果为0,则没有限制。DOWNLOAD_DELAY
:下载器在下载某个页面前等待多长的时间。该选项用来限制爬虫的爬取速度,减轻服务器压力。同时也支持小数。DOWNLOAD_TIMEOUT
:下载器下载的超时时间。ITEM_PIPELINES
:处理item
的Pipeline
,是一个字典,字典的key这个pipeline所在包的绝对路径,值是一个整数,优先级,值越小,优先级越高。LOG_ENABLED
:是否启用logging。默认是True。LOG_ENCODING
:log的编码。LOG_LEVEL
:log的级别。默认为DEBUG
。可选的级别有CRITICAL
、ERROR
、WARNING
、INFO
、DEBUG
。USER_AGENT
:请求头。默认为Scrapy/VERSION (+http://scrapy.org)
。PROXIES
:代理设置。COOKIES_ENABLED
:是否开启cookie。一般不要开启,避免爬虫被追踪到。如果特殊情况也可以开启。