您当前的位置：首页 > 嗨学编程 Python

Python 从零开始爬虫(二)：BeautifulSoup解析网页

嗨学编程发布时间：2019-04-20 14:53:23 ，浏览量：4

学了requests，了解了伪装技巧后，终于能爬到些比较正常的网页源码（html文档）了，但这离结果还差最后和是最重要的一步——筛选。这个过程就像在泥沙中淘金一样，没有合适的筛子，你就会把有价值的漏掉了，或者做了无用功把没用的也筛了出来。
淘金者看土质，做筛子。对应到爬虫领域就是观察html，定制筛选器。

稍稍了解HTML

信息都在网页源码里，浏览器通过解析源码来加载我们所看到的东西，那我们是不是也应该学下如何看源码呢？——是的

但不要方，这不是html语法课，做爬虫的，只需了解一下html的原理和标签关系就行了，这跟认亲戚一样简单，你会看家族树的话根本不成问题。





    
      Harry Potter
      J K. Rowling 
      2005
      29.99
    




有时候会堆成一行，影响观察但不影响使用，丢到排版器排一下就好了
Harry PotterJ K. Rowling


    
        
            
        
        
            
                
                
                    嗨学编程
                    暂无认证
                
            
            
                
                    
                        4浏览
                        0关注
                        1306博文
                        0收益
                    

                    
                        0浏览
                        0点赞
                        0打赏
                        0留言
                    
                
            
            
                私信
                关注
            

        
        
            热门博文
            
                Python：用tkinter制做一个音乐下载小软件
Python丨小学妹喜欢看漫画，于是我写了四十行代码获取了它所有漫画
女同桌找我要表情包，还好我会Python，分分钟给她下载几十个G...
为了防止这上面的文章被封，我连夜用Python获取了它所有内容，真香~
这个Python读取文件的方法，堪称天花板级别...
Python做一个通过输入bv号就能下载视频的工具，评论和弹幕也不放过
Python：50行代码实现下载小说，图片章节可自动识别转文字保存...
只用二十行代码，用Python实现获取网抑云榜单文件保存本地，非常简单...
发现一个舔狗神器，Python真的太厉害了，自动下载妹子视频...
使用Python探索四大名著【红楼梦】人物之间的关系，简直帅呆了







    [ 申请 ]友情链接：
    
        
        优质稳定机场推荐

        绘画宝宝
        配音宝宝
    


    
        
            关于我们
            服务条款
            广告服务
            联系我们
            网站地图
            免责声明
            WAP
        
        技术支持：
            武汉快勤科技有限公司
            XML网站地图 
            备案号：鄂ICP备18027844号-9
            
        
    




    
        立即登录/注册
        
    
    
        
        微信扫码登录