您当前的位置: 首页 >  爬虫

川川菜鸟

暂无认证

  • 5浏览

    0关注

    969博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文

爬虫学习(1):urlopen库使用

川川菜鸟 发布时间:2021-01-25 00:19:07 ,浏览量:5

以爬取CSDN为例子: 第一步:导入请求库 第二步:打开请求网址 第三步:打印源码

import urllib.request
response=urllib.request.urlopen("https://www.csdn.net/?spm=1011.2124.3001.5359")
print(response.read().decode('utf-8'))

结果大概就是这个样子: 在这里插入图片描述

好的,继续,看看打印的是什么类型的:

import urllib.request
response=urllib.request.urlopen("https://www.csdn.net/?spm=1011.2124.3001.5359")
# print(response.read().decode('utf-8'))
print(type(response))

结果: 在这里插入图片描述 知道这个类型就行了,不废话的去解读

ok,再看看别的,比如(解释都在注释了)

import urllib.request
response=urllib.request.urlopen("https://www.csdn.net/?spm=1011.2124.3001.5359")
# print(response.read().decode('utf-8'))
print(type(response))#打印网页类型
print(response.status)#打印返回结果的状态
print(response.getheaders())#打印响应头信息

在这里插入图片描述 返回状态是200嘛就代表请求成功了

再来看看timeout使用:设置请求时间最长可以是多久,超过就不请求了

import urllib.request
response=urllib.request.urlopen("https://www.csdn.net/?spm=1011.2124.3001.5359",timeout=0.1)
# print(response.read().decode('utf-8'))
# print(type(response))#打印网页类型
# print(response.status)#打印返回结果的状态
# print(response.getheaders())#打印响应头信息
print(response.read())

为了显示出报错,我就设置了时间为0.1秒,timeout就直接放在打开网页旁边就好了:报错The read operation timed out就是请求超时,0.1秒嘛,肯定超过0.1秒了,就自然报错了 在这里插入图片描述

最基本爬取网页,后续待更新

关注
打赏
1665165634
查看更多评论
立即登录/注册

微信扫码登录

0.0511s