文章目录
一、前言框架
-
- 一、前言框架
- 二、网址请求
-
- 2.1 打开网址
- 2.2 超时设置
- 2.3 错误抓取
- 三、更深请求
-
- 3.1 打开网址
- 3.2 请求头添加
- 3.3 链接解析
- 四、Robots 协议
- 五、万能视频下载
之前我一直没想教大家urlib,思考万分,还是要补一下这个教程。
我们来学一下爬虫之祖urlib,不管你什么模块都是起源于该模块。 urlib库有几个模块,依次如下:
- request :用于请求网址的模块
- error:异常处理模块
- parse:用于修改拼接等的模块
- robotparser:用来判断哪些网站可以爬,哪些网站不可以爬
以请求我自己的博客为例子,我博客链接为: