您当前的位置：首页 > 嗨学编程 Python

Python爬取并分析IMDB电影

嗨学编程发布时间：2019-08-09 20:29:45 ，浏览量：3

一.打开IMDB电影T250排行可以看见250条电影数据，电影名，评分等数据都可以看见

按F12进入开发者模式，找到这些数据对应的HTML网页结构，如下所示

可以看见里面有链接，点击链接可以进入电影详情页面，这可以看见导演，编剧，演员信息

同样查看HTML结构，可以找到相关信息的节点位置

演员信息可以在这个页面的cast中查看完整的信息

HTML页面结构

分析完整个要爬取的数据，现在来获取首页250条电影信息

1.整个爬虫代码需要使用的相关库

import re
import pymysql
import json
import requests
from bs4 import BeautifulSoup
from requests.exceptions import RequestException
'''
遇到不懂的问题？Python学习交流群：1136201545满足你的需求，资料都已经上传群文件，可以自行下载！
'''

2.请求首页的HTML网页，（如果请求不通过可以添加相关Header），返回网页内容

def get_html(url):
    response=requests.get(url)
    if response.status_code==200:
        #判断请求是否成功
        return  response.text
    else:
        return None

3.解析HTML

def parse_html(html):
    #进行页面数据提取
    soup = BeautifulSoup(html, 'lxml')
    movies = soup.select('tbody tr')
    for movie in movies:
        poster = movie.select_one('.posterColumn')
        score = poster.select_one('span[name="ir"]')['data-value']
        movie_link = movie.select_one('.titleColumn').select_one('a')['href']
        #电影详情链接
        year_str = movie.select_one('.titleColumn').select_one('span').get_text()
        year_pattern = re.compile('\d{4}')
        year = int(year_pattern.search(year_str).group())
        id_pattern = re.compile(r'(?


    
        
            
        
        
            
                
                
                    嗨学编程
                    暂无认证
                
            
            
                
                    
                        3浏览
                        0关注
                        1306博文
                        0收益
                    

                    
                        0浏览
                        0点赞
                        0打赏
                        0留言
                    
                
            
            
                私信
                关注
            

        
        
            热门博文
            
                Python：用tkinter制做一个音乐下载小软件
Python丨小学妹喜欢看漫画，于是我写了四十行代码获取了它所有漫画
女同桌找我要表情包，还好我会Python，分分钟给她下载几十个G...
为了防止这上面的文章被封，我连夜用Python获取了它所有内容，真香~
这个Python读取文件的方法，堪称天花板级别...
Python做一个通过输入bv号就能下载视频的工具，评论和弹幕也不放过
Python：50行代码实现下载小说，图片章节可自动识别转文字保存...
只用二十行代码，用Python实现获取网抑云榜单文件保存本地，非常简单...
发现一个舔狗神器，Python真的太厉害了，自动下载妹子视频...
使用Python探索四大名著【红楼梦】人物之间的关系，简直帅呆了







    [ 申请 ]友情链接：
    
        
        优质稳定机场推荐

        绘画宝宝
        配音宝宝
    


    
        
            关于我们
            服务条款
            广告服务
            联系我们
            网站地图
            免责声明
            WAP
        
        技术支持：
            武汉快勤科技有限公司
            XML网站地图 
            备案号：鄂ICP备18027844号-9
            
        
    




    
        立即登录/注册
        
    
    
        
        微信扫码登录