您当前的位置：首页 > 嗨学编程 Python

【Python爬虫案例学习19】多进程爬取某图片网站

嗨学编程发布时间：2019-08-06 16:28:26 ，浏览量：3

网站:http://www.win4000.com（图片的质量还不错）

基本环境配置：

Python版本：3.6

相关模块：

import re
import requests
import time
from multiprocessing import Pool
from lxml import etree
import os
import uuid

####完整代码：

import re
import requests
import time
from multiprocessing import Pool
from lxml import etree
import os
import uuid
'''
遇到不懂的问题？Python学习交流群：821460695满足你的需求，资料都已经上传群文件，可以自行下载！
'''
# 第一个主页面地址
rooturl = 'http://www.win4000.com/zt/huyan_'

# http://www.win4000.com/zt/fengjing.html

# 模拟浏览器请求头
header = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64)"
                  " AppleWebKit/537.36 (KHTML, like Gecko) "
                  "Chrome/70.0.3538.110 Safari/537.36"
}

count = 0
# 图片集url
def graph_set(rooturl):
    set = []
    title = []
    results = requests.get(rooturl, headers=header)
    text = results.text
    res = re.findall('.*href="(.*)" alt="',text)
    selector = etree.HTML(text)
    tt = selector.xpath('//div[contains(@class,"tab_tj")]//li//p')
    for url in res:
        set.append(url)
    for tit in tt[:24]:
        title.append(tit.text)
    return title,set


# 图片页面解析原图集合
def parser(tup):
    response = requests.get(tup[0],headers=header)
    text = response.text
    originset = re.findall('href="(.*)" class=.*查看原图',text)
    time.sleep(1)
    oringin(originset.pop(),tup[1])

# 图集原图集合
def oringin(page,name):
    print(name+'正在爬取')
    dir = 'G:\python 资源\python project\美桌网壁纸爬取\护眼图片\\'
    oringin = []
    response = requests.get(page,headers=header)
    res = re.findall('li.*href="(.*)".*>


    
        
            
        
        
            
                
                
                    嗨学编程
                    暂无认证
                
            
            
                
                    
                        3浏览
                        0关注
                        1306博文
                        0收益
                    

                    
                        0浏览
                        0点赞
                        0打赏
                        0留言
                    
                
            
            
                私信
                关注
            

        
        
            热门博文
            
                Python：用tkinter制做一个音乐下载小软件
Python丨小学妹喜欢看漫画，于是我写了四十行代码获取了它所有漫画
女同桌找我要表情包，还好我会Python，分分钟给她下载几十个G...
为了防止这上面的文章被封，我连夜用Python获取了它所有内容，真香~
这个Python读取文件的方法，堪称天花板级别...
Python做一个通过输入bv号就能下载视频的工具，评论和弹幕也不放过
Python：50行代码实现下载小说，图片章节可自动识别转文字保存...
只用二十行代码，用Python实现获取网抑云榜单文件保存本地，非常简单...
发现一个舔狗神器，Python真的太厉害了，自动下载妹子视频...
使用Python探索四大名著【红楼梦】人物之间的关系，简直帅呆了







    [ 申请 ]友情链接：
    
        
        优质稳定机场推荐

        绘画宝宝
        配音宝宝
    


    
        
            关于我们
            服务条款
            广告服务
            联系我们
            网站地图
            免责声明
            WAP
        
        技术支持：
            武汉快勤科技有限公司
            XML网站地图 
            备案号：鄂ICP备18027844号-9
            
        
    




    
        立即登录/注册
        
    
    
        
        微信扫码登录