编码问题

各种查资料,研究了一整天,得出了以下结论:

Unicode 只是一个字符集,是一个囊括了世界上所有字符的字符集。

UTF-8、UTF-16是对Unicode的两种变长编码实现方式

Windows下所谓的Unicode编码实际上是UTF-16 LE(记事本另存为的编码选择那里误导了很多人)。

UTF-16 从来都是变长编码,但是UTF-16在绝大多数情况下都是定长的(因为Windows最初只支持2字节长度)

目前大部分网站都是的编码格式都是UTF-8,过去可能为了节约带宽使用其他编码,但是目前文字内容占带宽的比例几乎可以忽略了。<meta charset=”UTF-8″ />

python2默认编码是ASCII,python3默认是UTF-8

发表评论

电子邮件地址不会被公开。 必填项已用*标注