华帅
我们的目标是星辰大海
编码问题
各种查资料,研究了一整天,得出了以下结论:
- Unicode 只是一个字符集,是一个囊括了世界上所有字符的字符集。
- UTF-8、UTF-16是对Unicode的两种变长编码实现方式
- Windows下所谓的Unicode编码实际上是UTF-16 LE(记事本另存为的编码选择那里误导了很多人)。
- UTF-16 从来都是变长编码,但是UTF-16在绝大多数情况下都是定长的(因为Windows最初只支持2字节长度)
- 目前大部分网站都是的编码格式都是UTF-8,过去可能为了节约带宽使用其他编码,但是目前文字内容占带宽的比例几乎可以忽略了。
- python2默认编码是ASCII,python3默认是UTF-8