需求:
某文本文件编码格式已知(如utf-8,GBK,BIG5),在python2.x和python3.x中分别如何读取该文件?
思路:
明确的一点:
在python2和python3中字符串的语义发生了变化
python2中的 str --> python3中的 bytes
python2中的 unicode --> python3中的str
python2:写入文件前对unicode编码,读入文件后对二进制字符串解码
python3:open函数指定‘t‘的文本样式,encoding指定编码格式
代码:
# python2中
f = open(‘py2.txt‘,‘w‘)
#unicode字符串:
s = u‘你好‘
#将unicode字符串写入文本文件中去,注意要先编码才能写入
f.write(s.encode(‘gbk‘))
# 读取文件中的内容
f.open(‘py2.txt‘,‘r‘)
t = f.read()
# 还原成文本要先进行解码,等到unicode的字符串:
t.decode(‘gbk‘)
print t.decode(‘gbk‘)
# python3中
# 表示bytes类型的字符串:
b = b‘efwjijsx‘
# 表示unicode字符串,在python3 中字符串直接就是unicode字符串
s = ‘你好‘
# 在python3中通过指定encoding,省去了python2中手工编码和解码的过程,更加方便
# 写入文件,t可以省略,默认以t(文本)的形式写,实际上写入的也是字节但是自动完成了编码。
f = open(‘py3.txt‘,‘wt‘,encoding=‘utf8‘)
f.write(‘你好,我爱编程‘)
f.close
# 读取文件,实际上读取的也是字节但是自动完成了解码。
f = open(‘py3.txt‘,‘rt‘,encoding=‘utf8‘)
s = f.read()
print(s)
原文:https://www.cnblogs.com/Richardo-M-Q/p/13284454.html