您当前的位置：首页 > 钟钟终爬虫

（吼吼吼）初学爬虫 +爬取豆瓣电影

钟钟终发布时间：2021-10-04 23:59:16 ，浏览量：5

获取豆瓣电影（完结！！）

import bs4      #网页解析，获取数据
from bs4 import BeautifulSoup
import re       #正则表达式，文字匹配
import urllib.request,urllib.error #制定URL，获取网页数据
import xlwt     #进行excel操作 
import sqlite3  #进行SQL数据库操作  

#def  main():
#findlink=re.compile(r'')
        
    
#爬取网页
def getData(baseurl):
    datalist=[]
    for i in range(0,10):
        url=baseurl+str(i*25)
        html=askurl(url)
        #逐一解析数据
        soup=BeautifulSoup(html,"html.parser")
#创建BeautifulSoup对象，html为页面内容，html.parser是一种页面解析器
        for item in soup.find_all('div',class_="item"):  
#查找符合要求的字符串，形成列表，即页面内所有样式的item类的div
            #print(item) #查看电影item全部信息（那胡来验证比较分析）
            data=[] #保存一部电影所有信息
            item=str(item)
            #print(item)
            #break            关键：提取一步影片分析格式
            #下面为正则表达式
            #提取影片链接
            link=re.findall(re.compile(r''),item)[0]
            data.append(link)
            #print(link) 
            
            #影片图片链接
            findimg=re.compile(r'


    
        
            
        
        
            
                
                
                    钟钟终
                    暂无认证
                
            
            
                
                    
                        5浏览
                        0关注
                        225博文
                        0收益
                    

                    
                        0浏览
                        0点赞
                        0打赏
                        0留言
                    
                
            
            
                私信
                关注
            

        
        
            热门博文
            
                19香港补题(G)+cf思维
20南京站M题(树上dp)、19南京站J题(KM算法)+思维
20南京站补题(E、F)+cf数学
哈希+组合数学+思维
19 南京站+div2思维
2020 icpc 上海站+模拟+dp
小结+组合数学+模拟+思维
10/2 模拟题+倍增lca+zkw线段树
9/30-10/1
2021 ICPC 南京站+上海站 部分题解







    [ 申请 ]友情链接：
    
        
        优质稳定机场推荐

        绘画宝宝
        配音宝宝
    


    
        
            关于我们
            服务条款
            广告服务
            联系我们
            网站地图
            免责声明
            WAP
        
        技术支持：
            武汉快勤科技有限公司
            XML网站地图 
            备案号：鄂ICP备18027844号-9
            
        
    




    
        立即登录/注册
        
    
    
        
        微信扫码登录