您当前的位置: 首页 >  魔王不会哭 Python

用 Python 带你游览女神世界,海量视频数据一键保存

魔王不会哭 发布时间:2022-01-24 19:01:44 ,浏览量:5

前言

嗨喽!大家好,这里是魔王~

今天某人在偶然之间发现了一个久远的网站,好东西当然是要分享出来了(‾◡◝)

网站网址 看了不要激动,这种时候视频当然要保存下载喽~不然不见了咋办

本次目的:

用 Python 带你看遍 女神视界

知识点:

  1. 海量视频数据一键保存
  2. html标签数据解析方法
  3. re解析数据方法

环境介绍:

  • python 3.8
  • pycharm 2021.2
  • requests >>> pip install requests
  • parsel >>> pip install parsel

+python安装包 安装教程视频
+pycharm 社区版 专业版 及 激活码免费
+看评论区或私我领取

一. 分析网站(思路分析)

我们通过在网页链接前面+ view-source:https:…

就可以查看到网页源代码, 我们在网页源代码当中可以找到 视频链接地址

二. 代码实现

  1. 发送网络请求
  2. 获取数据 网页源代码
  3. 筛选数据 视频详情页地址
  4. 发送网络请求
  5. 获取数据 网页源代码
  6. 筛选数据 视频播放地址
  7. 访问视频播放地址
  8. 获取视频二进制数据
  9. 保存 视频数据

导入模块

import requests     # 发送网络请求
import re           # 正则模块
import parsel       # 解析数据模块

1. 发送网络请求

url_1 = 'https://www.520mmtv.com/tag/xg.html'
response_1 = requests.get(url_1)

2. 获取数据 网页源代码

data_html_1 = response_1.text

3. 筛选数据 视频详情页地址

selector = parsel.Selector(data_html_1)
info_url_list = selector.css('.meta-title::attr(href)').getall()
title_url_list = selector.css('.meta-title::text').getall()
new_title_list = [i for i in title_url_list if i != ' ']
# zip: 我们需要把视频链接 标题一起进行循环
for zip_data in zip(info_url_list, new_title_list):
    url = zip_data[0]

1. 发送网络请求

    response = requests.get(url=url)
    # : 发送请求成功响应

2. 获取数据 网页源代码

    data_html = response.text

3. 筛选数据 视频播放地址

    # 第一个参数匹配规则 第二个我们要在哪里匹配
    video_url = re.findall('url: "(.*?)",', data_html)[0]
    print(video_url)

4. 访问视频播放地址

5. 获取视频/音频/图片 二进制数据

    video_data = requests.get(video_url).content
    title = zip_data[1]

6. 保存 视频数据

    with open(f'video\\{title}.mp4', mode='wb') as f:
        f.write(video_data)
    print(title, '爬取成功!!!')

尾语

好了,我的这篇文章写到这里就结束啦!

有更多建议或问题可以评论区或私信我哦!一起加油努力叭(ง •_•)ง

喜欢就关注一下博主,或点赞收藏评论一下我的文章叭!!!

关注
打赏
查看更多评论

魔王不会哭

暂无认证

  • 5浏览

    0关注

    84博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文
立即登录/注册

微信扫码登录