您当前的位置: 首页 >  Python

嗨学编程

暂无认证

  • 2浏览

    0关注

    1405博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文

利用python的爬虫技术爬去糗事百科的段子

嗨学编程 发布时间:2019-06-19 15:57:54 ,浏览量:2

实现目标:

1,爬取到糗事百科的段子

2,实现每次爬去一个段子,每按一次回车爬取到下一页

技术实现:

基于python的实现,利用Requests库,re库,bs4库的BeautifulSoup方法来实现的

主要内容:首先我们要理清一下爬取实现的思路,我们来构建一下主体框架。第一步我们先写一个利用Requests库来获取网页的方法,第二步我们利用bs4库的BeautifulSoup方法来分析所获取的网页信息并利用正则表达式来匹配相关的段子信息。第三步我们来打印出获得的信息。以上方法我们都通过一个主函数来进行执行。

一,首先导入相关的库

二,首先进行网页信息的获取

三,把信息放到r后再进行解析  

soup = BeautifulSoup(html,"html.parser")

我们需要的是段子的内容和发布人,通过网页的查看源代码我们知道段子的发布人在:

'div', attrs={'class': 'content'}中

段子的内容在

'div', attrs={'class': 'author clearfix'}中

所以我们通过bs4库的方法来提取这两个标签的具体内容

然后通过具体到正则表达式来获取信息

完整代码

关注
打赏
1663681728
查看更多评论
立即登录/注册

微信扫码登录

0.4896s