Python爬虫：scrapy框架Spider类参数设置

彭世瑜发布时间：2018-06-13 09:44:45 ，浏览量：4

                    
                        
                    
                    Spider设置 
参数说明示例
name爬虫名称，必须唯一name = “myspider”
handle_httpstatus_list需要处理的状态码handle_httpstatus_list = [404]
download_delay下载延时（单位：s秒）download_delay = 5
allowed_domains域名限制allowed_domains = [“baidu.com”]
custom_settings用户设置，单独设置爬虫参数custom_settings ={‘RETRY_TIMES’: 3}
start_urls起始链接设置start_urls = [“http://www.baidu.com“]
 
settings.py或者custom_settings 
参数说明
USER_AGENT请求头
ROBOTSTXT_OBEY = False是否遵守robots协议
DOWNLOAD_DELAY = 2同一个站点抓取延迟（秒s）
CONCURRENT_REQUESTS_PER_DOMAIN = 1对同一个站点并发线程
CONCURRENT_REQUESTS_PER_IP = 1对同一个ip并发线程

                

参数	说明	示例
name	爬虫名称，必须唯一	name = “myspider”
handle_httpstatus_list	需要处理的状态码	handle_httpstatus_list = [404]
download_delay	下载延时（单位：s秒）	download_delay = 5
allowed_domains	域名限制	allowed_domains = [“baidu.com”]
custom_settings	用户设置，单独设置爬虫参数	custom_settings ={‘RETRY_TIMES’: 3}
start_urls	起始链接设置	start_urls = [“http://www.baidu.com“]

参数	说明
USER_AGENT	请求头
ROBOTSTXT_OBEY = False	是否遵守robots协议
DOWNLOAD_DELAY = 2	同一个站点抓取延迟（秒s）
CONCURRENT_REQUESTS_PER_DOMAIN = 1	对同一个站点并发线程
CONCURRENT_REQUESTS_PER_IP = 1	对同一个ip并发线程

关注

打赏

查看更多评论

Python爬虫：scrapy框架Spider类参数设置

Spider设置

settings.py或者custom_settings

[ 申请 ]友情链接：