您当前的位置: 首页 >  html

彭世瑜

暂无认证

  • 3浏览

    0关注

    2791博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文

使用lxml.html.clean.Cleaner清洗html

彭世瑜 发布时间:2020-03-26 17:06:13 ,浏览量:3

文档: https://lxml.de/lxmlhtml.html#cleaning-up-html

代码示例

# -*- coding: utf-8 -*-

from lxml.html.clean import Cleaner

html = """

   铁打的腾讯

""" # 保存新闻的时候,很多属性不需要保存,不然会占用硬盘资源,所以只保留图片标签的src属性就行 safe_attrs = frozenset(['src']) # a标签也不要,只保留里边的内容 remove_tags = frozenset([ 'a' ]) cleaner = Cleaner(safe_attrs=safe_attrs, remove_tags=remove_tags) cleaned_html = cleaner.clean_html(html) print(cleaned_html) '''

   铁打的腾讯

'''

清洗之后内容简洁多了

关注
打赏
1665367115
查看更多评论
立即登录/注册

微信扫码登录

0.2961s