Python处理转义字符--HTMLParse安装及相关错误

时间：2021-06-10 11:40:15 阅读：46 评论：0 收藏：0 [点我收藏+]

网页数据中包含&, >, <,  等转义字符，想要将他们变成&<> 原字符

例如：

html = ‘&lt;content&gt;

python处理方式

import HTMLParser
html_parser = HTMLParser.HTMLParser()
txt = html_parser.unescape(html) #这样就得到了txt = ‘<content>‘

转回转义字符

import cgi
html = cgi.escape(txt) # 这样又回到了 html = ‘&lt;content&gt‘

当我们pip安装HTMLParser并且按照上述方式写到代码里时，会报错

ModuleNotFoundError: No module named ‘markupbase

OK，那我们继续pip安装markupbase，哎，提示不行啊，于是官网下载https://pypi.org/project/micropython-_markupbase/#description

两次解压后得到文件夹micropython-_markupbase-3.3.3-1，然后在python的路径中找到site-packages这个文件夹，将micropython-_markupbase-3.3.3-1这个包中_markupbase.py文件改名为markupbase.py并放到site-packages文件夹中。！！！只放一个.py文件其他不要，不然会报错。

重新运行程序，果不其然依然报错啊！

ModuleNotFoundError: No module named ‘htmlentitydefs‘

然后将导包的方式换一下：

from HTMLParser import HTMLParser #python2
from html.parser import HTMLParser #python3

html_parser = HTMLParser()
txt = html_parser.unescape(html) #这样就得到了txt = ‘<content>‘

大功告成！

Python处理转义字符--HTMLParse安装及相关错误

原文：https://www.cnblogs.com/QRain/p/14869699.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)