获取豆瓣电影(完结!!)
import bs4 #网页解析,获取数据
from bs4 import BeautifulSoup
import re #正则表达式,文字匹配
import urllib.request,urllib.error #制定URL,获取网页数据
import xlwt #进行excel操作
import sqlite3 #进行SQL数据库操作
#def main():
#findlink=re.compile(r'')
#爬取网页
def getData(baseurl):
datalist=[]
for i in range(0,10):
url=baseurl+str(i*25)
html=askurl(url)
#逐一解析数据
soup=BeautifulSoup(html,"html.parser")
#创建BeautifulSoup对象,html为页面内容,html.parser是一种页面解析器
for item in soup.find_all('div',class_="item"):
#查找符合要求的字符串,形成列表,即页面内所有样式的item类的div
#print(item) #查看电影item全部信息(那胡来验证比较分析)
data=[] #保存一部电影所有信息
item=str(item)
#print(item)
#break 关键:提取一步影片分析格式
#下面为正则表达式
#提取影片链接
link=re.findall(re.compile(r''),item)[0]
data.append(link)
#print(link)
#影片图片链接
findimg=re.compile(r'
关注
打赏