您当前的位置: 首页 >  爬虫

风间琉璃•

暂无认证

  • 2浏览

    0关注

    337博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文

爬虫基础知识

风间琉璃• 发布时间:2021-08-13 20:00:29 ,浏览量:2

1.web请求过程: 在这里插入图片描述 页面渲染两种方式 (1)服务器渲染:在服务器那边直接把数据和html整合到一起,统一返回给浏览器,在页面源代码里可以看到我们相要的数据。 在这里插入图片描述

(2)客户端渲染:第一次请求只有一个html框架,第二次请求拿到数据,进行数据显示,在页面源代码里面看不见数据。

在这里插入图片描述

2.http协议 HTTP协议, Hyper Text Transfer Protocol(超⽂本传输协议)的缩 写,是⽤于从万维⽹服务器传输超⽂本到本地浏览器的传送协议. 就是浏览器和服务器之间的数据交互遵守的就是HTTP协议.

HTTP协议把⼀条消息分为三⼤块内容. ⽆论是请求还是响应都是三 块内容 请求: (1)请求⾏ -> 请求⽅式(get/post) 请求url地址 协议 (2)请求头 -> 放⼀些服务器要使⽤的附加信息 (3)请求体 -> ⼀般放⼀些请求参数

响应:

(1)状态⾏ -> 协议 状态码 (2)响应头 -> 放⼀些客户端要使⽤的⼀些附加信息 (3)响应体 -> 服务器返回的真正客户端要⽤的内容(HTML,json)等

在这里插入图片描述

请求头中最常⻅的⼀些重要内容(爬⾍需要):

  1. User-Agent : 请求载体的身份标识(⽤啥发送的请求)
  2. Referer: 防盗链(这次请求是从哪个⻚⾯来的? 反爬会⽤到)
  3. cookie: 本地字符串数据信息(⽤户登录信息, 反爬的token)

响应头中⼀些重要的内容:

  1. cookie: 本地字符串数据信息(⽤户登录信息, 反爬的token)
  2. 各种神奇的莫名其妙的字符串(⼀般都是token字样, 防⽌各种攻击和反爬)

3.HTML语法 HTML是一个超文本标记语言,它不属于一种编程语言, 基本框架如下:


DOCTYPE html>




    
    
    标题



    



在这里插入图片描述

一.基本标签

单标签用于声明一些属性 双标签决定了范围

1.

标题, 有h1~h6 六种格式,h1字体最大,h7及其以后的标签相当于没写 2.

表示里面的内容为一个文字段落 3. 换行标签 4. 水平线 以上四个标签都默认独占一行,不用单独加上换行标签 以下标签不独占一行 5. 倾斜标签 6. 加粗

二、注释和特殊符号 1.空格: ; 在HTML中连续的多个空格默认为一个空格,如果需要打出多个空格的效果则需要使用 ;来表示一个空格。 2.大于号和小于号:> < 直接写在标签中有可能被识别为标签的左右结束范围的标志,所以有时候我们需要使用这两个符号 3.引号:"; 4.版权符号:©;说明版权

三、图片标签 基本格式:

关注
打赏
1665385461
查看更多评论
立即登录/注册

微信扫码登录

0.0384s