您当前的位置: 首页 >  爬虫

川川菜鸟

暂无认证

  • 2浏览

    0关注

    969博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文

爬虫学习(2): urllib教程与实践

川川菜鸟 发布时间:2021-11-22 20:54:05 ,浏览量:2

文章目录
    • 一、前言框架
    • 二、网址请求
      • 2.1 打开网址
      • 2.2 超时设置
      • 2.3 错误抓取
    • 三、更深请求
      • 3.1 打开网址
      • 3.2 请求头添加
      • 3.3 链接解析
    • 四、Robots 协议
    • 五、万能视频下载

一、前言框架

之前我一直没想教大家urlib,思考万分,还是要补一下这个教程。

我们来学一下爬虫之祖urlib,不管你什么模块都是起源于该模块。 urlib库有几个模块,依次如下:

  1. request :用于请求网址的模块
  2. error:异常处理模块
  3. parse:用于修改拼接等的模块
  4. robotparser:用来判断哪些网站可以爬,哪些网站不可以爬
二、网址请求 2.1 打开网址

以请求我自己的博客为例子,我博客链接为:

关注
打赏
1665165634
查看更多评论
立即登录/注册

微信扫码登录

0.0922s