您当前的位置: 首页 >  彭世瑜 Python

Python爬虫:scrapy框架Spider类参数设置

彭世瑜 发布时间:2018-06-13 09:44:45 ,浏览量:4

Spider设置

参数说明示例
name爬虫名称,必须唯一name = “myspider”
handle_httpstatus_list需要处理的状态码handle_httpstatus_list = [404]
download_delay下载延时(单位:s秒)download_delay = 5
allowed_domains域名限制allowed_domains = [“baidu.com”]
custom_settings用户设置,单独设置爬虫参数custom_settings ={‘RETRY_TIMES’: 3}
start_urls起始链接设置start_urls = [“http://www.baidu.com“]

settings.py或者custom_settings

参数说明
USER_AGENT请求头
ROBOTSTXT_OBEY = False是否遵守robots协议
DOWNLOAD_DELAY = 2同一个站点抓取延迟(秒s)
CONCURRENT_REQUESTS_PER_DOMAIN = 1对同一个站点并发线程
CONCURRENT_REQUESTS_PER_IP = 1对同一个ip并发线程
关注
打赏
查看更多评论

彭世瑜

暂无认证

  • 4浏览

    0关注

    2727博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文
立即登录/注册

微信扫码登录