我需要处理数据库里面的一些文本数据,用replace这些很难受,所以使用正则,但是正则看了看,还不能写出所有的想要的,故,记录一些处理的正则,我是使用Python的,真的,以前听说人生苦短,我用Python.现在用了Python之后我才真的有感触,人生苦短,我用Python.
# 先去掉scripts标签
dr = re.compile(r‘<script[^>]*>(.|\n)*</script>‘,re.S)
Description = dr.sub(‘‘,Description)
html文本里面的class,href这些属性是不需要的,所以可以全部去掉,我不知道怎么省略,所以加了一个?:vae
意思是vae属性不过滤,其他的都过滤
p=re.compile(r‘\b(?!(?:vae))\w+=(["\‘]).+?\1‘, re.I)
Description = p.sub(‘‘,Description)
dr = re.compile(r‘<(?!li|/li|p|/p|ul|/ul)[^>)]+>‘,re.S)
Description = dr.sub(‘‘,Description)
原文:https://www.cnblogs.com/yunquan/p/12564519.html