悔创阿里的马爸爸曾经说过:“数据是新一轮技术革命最重要的生产资料”,对于处于成长初中期的企业最缺的就是有用的基础数据,而如何快速补齐这些数据短板,相信大家都会想到爬虫,所以爬虫也成为近2年热门的大数据技术手段之一。本期的 Chat 就是教你如何从 0 到 1 快速搭建起自己的多线程并发爬虫框架,并且尽可能的使用免费的资源(比如:免费代理资源、免费的云数据库存储等)来实现。
内容简单分为 2 大部分,着重在爬虫框架搭建部分,会涉及到较多的源代码,文章会给出关键代码演示及解析说明,当然最后也会开源项目源代码,大纲如下:
- 简单介绍爬虫原理及流程;
- 爬虫框架搭建部分:
- 代理请求模块(包括免费代理获取,代理可用性校验与反馈,HTTP 代理请求封装等)
- 多线程并发爬取模块
- 任务调度模块
- 免费云数据库模块(Bmob云后台介绍,云数据库增删查API封装)
- 示例:爬取CSDN热门文章
市面上的爬虫介绍课程或文章大都是用 Python 来实现的,但本场 Chat 中的爬虫框架是用 Java 来实现的,所以最好要有一定的 Java 基础。
阅读全文: http://gitbook.cn/gitchat/activity/5d2ecba7cfd4917a259d171b
您还可以下载 CSDN 旗下精品原创内容社区 GitChat App ,阅读更多 GitChat 专享技术内容哦。