毫不客气地说,编码真的是 Python 使用者遇到的最多的问题之一。新手看了会崩溃,老手遇到会流泪(感叹以前踩过的坑)。
在踩过很多很多坑之后,已经对这个问题麻木了,反正我现在基本上只用 Python 3 了,问题也比较少了。
Unicode
在讲问题之前先来看两个官方的 HOWTO 文档:Unicode HOWTO Python 2 和 Unicode HOWTO Python 3 。这两篇前面讲的内容基本一致,就是说美国人一开始搞了 ASCII 编码,只有 0 - 127,后来不断增加新的字符,发现 8-bit 不够用了,然后就搞了一种 16-bit 的 Unicode,Unicode 的一种映射方法就是 UTF (Unicode Transformation Format),大家都很熟悉 UTF-8 了。文档后面就分别是 Python 2 和 3 中的 Unicode 了,其他模块也就是 Regex 需要注意一下,Python 2 中匹配的是 ASCII,而 Python 3 中默认是匹配 Unicode,如果需要切换到 ASCII,需要设置 flag=re.A
。
Python 2
在 Python 2 中编码算是一个老大难的问题了,无数新手栽在这里,想当初搜一下这个问题,博客里面基本都是说在 py 文件的开头加上 # -*- coding: utf-8 -*-
来保平安,如果这么简单就解决了那真是该烧高香了。
encode / decode utf-8
Python 2 默认编码是 ASCII,要使用 Unicode String 还必须写成 u'string'
的形式,真的是非常蛋疼了。
当需要向终端输出字符串,或者将字符串写入文件,或者调用第三方包处理的时候,就可能会遇到编码问题了,这时候通常可以简单的通过 string.encode('utf-8')
和 string.decode('utf-8')
来解决。
sys reload
有时候问题很顽固,有的环境上就是出问题,那就可以考虑在文件开头加上下面这几行,重置运行环境的编码。
import sys
reload(sys)
sys.setdefaultencoding('UTF8')
latin
有时候爬取的网页文本,不管怎么 encode
、decode
都总是在报错,这时候可以考虑把 latin
编码当做中间编码,先转 latin
再转 unicode
。还有问题就 ignore
。
codecs
Python 有专门的 codecs
这么一个包,提供更多编码方面的接口,可以参考官方文档 codecs 。
Python 3
到了 Python 3 之后编码问题会少很多,但是并不意味着你就可以高枕无忧了。
encoding
为了保证不出问题,读取文件的时候最好明确指定编码方式:
with open('README.md', encoding='utf-8') as f:
readme = f.read()
不要怕麻烦,有时候因为机器或者容器本身的环境,就可能踩到很多坑。
Environment Variable
有时候用 Docker 的时候会遇到这种问题,明明是 Python 3,还指明了 encoding 方式,为什么还出问题呢?通常是因为容器本身的环境变量有问题。
LC_ALL=en_US.UTF-8
LANG=en_US.UTF-8