爬虫之数据提取响应内容的分类
在发送请求获取响应之后,可能存在多种不同类型的响应内容;而且很多时候,我们只需要响应内容中的一部分数据
-
结构化的响应内容
-
json字符串 【高频出现】
- 可以使用re、json等模块来提取特定数据
- json字符串的例子如下图
-
-
-
xml字符串 【低频出现】
-
可以使用re、lxml等模块来提取特定数据
-
xml字符串的例子如下
Everyday Italian Giada De Laurentiis 2005 30.00 Harry Potter J K. Rowling 2005 29.99 Learning XML Erik T. Ray 2003 39.95
-
-
-
非结构化的响应内容
-
html字符串
- 可以使用re、lxml等模块来提取特定数据
- html字符串的例子如下图
-