Python爬虫:scrapy框架Spider类参数设置
彭世瑜 发布时间:2018-06-13 09:44:45 ,浏览量:4
Spider设置
| 参数 | 说明 | 示例 |
|---|
| name | 爬虫名称,必须唯一 | name = “myspider” |
| handle_httpstatus_list | 需要处理的状态码 | handle_httpstatus_list = [404] |
| download_delay | 下载延时(单位:s秒) | download_delay = 5 |
| allowed_domains | 域名限制 | allowed_domains = [“baidu.com”] |
| custom_settings | 用户设置,单独设置爬虫参数 | custom_settings ={‘RETRY_TIMES’: 3} |
| start_urls | 起始链接设置 | start_urls = [“http://www.baidu.com“] |
settings.py或者custom_settings
| 参数 | 说明 |
|---|
| USER_AGENT | 请求头 |
| ROBOTSTXT_OBEY = False | 是否遵守robots协议 |
| DOWNLOAD_DELAY = 2 | 同一个站点抓取延迟(秒s) |
| CONCURRENT_REQUESTS_PER_DOMAIN = 1 | 对同一个站点并发线程 |
| CONCURRENT_REQUESTS_PER_IP = 1 | 对同一个ip并发线程 |