开发环境:win7下的
python3.5、MySQL5.7
编辑器:
pycharm2017.1、ipython,Navicat for mysql
需要的python第三方库:
selenium、PIL、Requests、MySQLdb、csv、pandas、numpy、matplotlib、jieba、wordcloud
另外还用到了无头浏览器PhantomJS。
主要思路:
一、通过selenium+phantomjs模拟登录qq空间取到cookies和g_qzonetoken,并算出gtk
二、通过Requests库利用前面得到的url参数,构造http请求
三、分析请求得到的响应,是一个json,利用正则表达式提取字段
四、设计数据表,并将提取到的字段插入到数据库中
五、通过qq邮箱中的导出联系人功能,把好友的qq号导出到一个csv文件,遍历所有的qq号爬取所有的说说
六、通过sql查询和ipython分析数据,并将数据可视化
七、通过python的第三方库jieba、wordcloud基于说说的内容做一个词云
闲话不多说,直接上代码
通过selenium+phantomjs模拟登录qq空间取到cookies和g_qzonetoken,并算出gtk
import re
from selenium import webdriver
from time import sleep
from PIL import Image
#定义登录函数
def QR_login():
def getGTK(cookie):
""" 根据cookie得到GTK """
hashes = 5381
for letter in cookie['p_skey']:
hashes += (hashes
关注
打赏