正则表达式

时间：2020-03-25 10:59:58 阅读：60 评论：0 收藏：0 [点我收藏+]

前言

我需要处理数据库里面的一些文本数据,用replace这些很难受,所以使用正则,但是正则看了看,还不能写出所有的想要的,故,记录一些处理的正则,我是使用Python的,真的,以前听说人生苦短,我用Python.现在用了Python之后我才真的有感触,人生苦短,我用Python.

    # 先去掉scripts标签
    dr = re.compile(r‘<script[^>]*>(.|\n)*</script>‘,re.S)
    Description = dr.sub(‘‘,Description)

html文本里面的class,href这些属性是不需要的,所以可以全部去掉,我不知道怎么省略,所以加了一个?:vae

意思是vae属性不过滤,其他的都过滤

    p=re.compile(r‘\b(?!(?:vae))\w+=(["\‘]).+?\1‘, re.I)
    Description = p.sub(‘‘,Description)

    dr = re.compile(r‘<(?!li|/li|p|/p|ul|/ul)[^>)]+>‘,re.S)
    Description = dr.sub(‘‘,Description)

原文：https://www.cnblogs.com/yunquan/p/12564519.html

踩

(0)

评论一句话评论（0）

分享档案

更多>