最近我的腾讯视频会员到期了,一直在纠结要不要续费,恰逢良心国漫《斗罗大陆》的广告打到我这里,再次勾起了我的追漫热情。虽然号称良心国漫,但是对这部动漫能不能值得我的腾讯视频的 VIP 价格,我还是相当怀疑的。所以决定先爬一爬,看看全部人的影评再决定。
本 Chat 我们主要讨论以下要点:
- Scrapy 爬虫爬取腾讯视频《斗罗大陆》的全部评论;
- 建立 Elasticsearch 映射存储全部评论;
- ik_smart 分词器中文热词分析;
- pyecharts 绘制 word_cloud(词云图)。
有同类兴趣的同学欢迎一起研究,如果对 Scrapy 爬虫不是很了解,也不用担心,本 Chat 我会用 Scrapy 来演示爬虫,也会给大家演示自己手写一个简单脚本来爬虫。如果 Elasticsearch 不太了解,欢迎先到我的 Elasticsearch 专栏共同学习进步,其他的技术方面都比较简单易懂,完全不用担心学不会。
阅读全文: http://gitbook.cn/gitchat/activity/5c06488914e9a931ce1e9331
您还可以下载 CSDN 旗下精品原创内容社区 GitChat App ,阅读更多 GitChat 专享技术内容哦。