学了requests,了解了伪装技巧后,终于能爬到些比较正常的网页源码(html文档)了,但这离结果还差最后和是最重要的一步——筛选。这个过程就像在泥沙中淘金一样,没有合适的筛子,你就会把有价值的漏掉了,或者做了无用功把没用的也筛了出来。 淘金者看土质,做筛子。对应到爬虫领域就是观察html,定制筛选器。
稍稍了解HTML信息都在网页源码里,浏览器通过解析源码来加载我们所看到的东西,那我们是不是也应该学下如何看源码呢?——是的
但不要方,这不是html语法课,做爬虫的,只需了解一下html的原理和标签关系就行了,这跟认亲戚一样简单,你会看家族树的话根本不成问题。
Harry Potter
J K. Rowling
2005
29.99
有时候会堆成一行,影响观察但不影响使用,丢到排版器排一下就好了
Harry PotterJ K. Rowling
关注
打赏
热门博文
- Python:用tkinter制做一个音乐下载小软件
- Python丨小学妹喜欢看漫画,于是我写了四十行代码获取了它所有漫画
- 女同桌找我要表情包,还好我会Python,分分钟给她下载几十个G...
- 为了防止这上面的文章被封,我连夜用Python获取了它所有内容,真香~
- 这个Python读取文件的方法,堪称天花板级别...
- Python做一个通过输入bv号就能下载视频的工具,评论和弹幕也不放过
- Python:50行代码实现下载小说,图片章节可自动识别转文字保存...
- 只用二十行代码,用Python实现获取网抑云榜单文件保存本地,非常简单...
- 发现一个舔狗神器,Python真的太厉害了,自动下载妹子视频...
- 使用Python探索四大名著【红楼梦】人物之间的关系,简直帅呆了