浅谈编码——编码是什么? 为什么会出现乱码?

浅谈编码——编码是什么? 为什么会出现乱码?大家可能在计算机上看到过类似 ASCII GBK GB2013 Unicode 等等这些东西 但是却搞不清楚它们的关系 没办法正确地使用

大家可能在计算机上看到过类似ASCII, GBK, GB2013,Unicode等等这些东西,但是却搞不清楚它们的关系,没办法正确地使用。再此,特对编码进行简要说明,让大家可以更好地理解和运用。

1. 编码产生的原因

在计算机中,所有的数据在存储和运算时,都要使用二进制数(也就是0和1两个数)表示。但是,具体使用哪些二进制数代表哪个具体的符号,每个地区都有自己约定的一套规则,这就是编码。

 

2.常见编码类型

a. ASCII

ASCII (American Standard Code for Information Interchange),美国信息交换标准代码是基于拉丁字母的一套电脑编码系统,主要用于显示现代英语和其他西欧语言,它是最通用的信息交换标准ASCII。第一次以规范标准的类型发表是在1967年,最后一次更新则是在1986年,到目前为止共定义了128个字符。

由此我们可以看出ASCII是美国人自己搞的一套编码,它可以适用于英语的书写,英语的26个大小写字母以及一些常用的符号都包含在内。

但是,对于其它国家自己的语言来说,这就不适用了。以中文为例,常用的汉字就有5000多个,这个怎么用ASCII码去表示呢?这个是无法表示的。

所以,我们国家研发了自己的一套编码规则,也就是GB 2312-1980和GBK两套编码。

 

b. GB 2312-1980

GB是啥意思? 2312是什么意思? 1980又是什么意思呢?

GB就是汉语拼音国标的首字母,也就是国家标准的意思;

2312是套标准的一个编号,就类似你家的邮政编号一样,只是一个编号而已;

那1980呢? 这个很显然就是年份嘛,就是说这个是在1980年发布的。

那么它完整的意思应该就是:在1980年发布的一套编号为2312的国家标准编码规则。

哈哈,是不是一下就清楚了!?

下面是详解: 

《信息交换用汉字编码字符集》是由中国国家标准总局1980年发布,1981年5月1日开始实施的一套国家标准,标准号是GB 2312—1980。

GB2312编码适用于汉字处理、汉字通信等系统之间的信息交换,通行于中国大陆;新加坡等地也采用此编码。中国大陆几乎所有的中文系统和国际化的软件都支持GB 2312。

基本集共收入汉字6763个和非汉字图形字符682个。整个字符集分成94个区,每区有94个位。每个区位上只有一个字符,因此可用所在的区和位来对汉字进行编码,称为区位码。

把换算成十六进制的区位码加上2020H,就得到国标码。国标码加上8080H,就得到常用的计算机机内码。1995年又颁布了《汉字编码扩展规范》(GBK)。GBK与GB 2312—1980国家标准所对应的内码标准兼容,同时在字汇一级支持ISO/IEC10646—1和GB 13000—1的全部中、日、韩(CJK)汉字,共计20902字。

 

c. GBK 

有了GB 2312,中国的计算机事业得以发展壮大。但是发展发展着,发现,诶, GB 2312的的编码不够用了,我们有更多的内容需要传入到计算机里面,怎么办?那就扩展一下嘛,所以就有了GBK 这种编码(我悄悄地告诉你,这个K不就是扩的汉语拼音嘛?)

下面是详解:

1995年,国家颁布了《汉字编码扩展规范》(GBK)。GBK与GB 2312—1980国家标准所对应的内码标准兼容,同时在字汇一级支持ISO/IEC10646—1和GB 13000—1的全部中、日、韩(CJK)汉字,共计20902字。简单来说,不就是可以储存的东西变多了嘛!

 

d. Unicode

上面讲了一下中国的编码方式。但是如果这样看的话,那是不是每个地区都得自己弄一套编码规则啊?世界上有那么多国家,那么多语言,这个怎么办呢?

为了解决这一问题,我们的万国码诞生了。

Unicode(统一码、万国码、单一码)是计算机科学领域里的一项业界标准,包括字符集、编码方案等。Unicode 是为了解决传统的字符编码方案的局限而产生的,它为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。1990年开始研发,1994年正式公布。

这样一来,是不是不同地区的编码就统一了呢? 大家用不同语言写的东西,都可以适用于这一套规则,这多方便啊!

 

e. UTF-8

Unicode码,这里是UTF-8,是不是长得很像啊?都是U开头的。没错,你猜对了,UTF-8又是Unicode的升级版本。为什么会有这个版本呢?

这是因为,对于原本的ASCII码,我们至于要占一个位(使用一个字节的内存)就可以储存信息了,但是Unicode码包含了更多的语言文字,就需要更长的编码去表示一个文字/字符,那么对于原本只需要用ASCII就能解决的问题,用Unicode码去编写,这样就造成了一种极大的浪费,大大占用了计算机的储存空间。所以,UTF-8就是为了解决这个问题而诞生的。

详解:

UTF-8(Universal Character Set/Unicode Transformation Format)是针对Unicode的一种可变长度字符编码。它可以用来表示Unicode标准中的任何字符,而且其编码中的第一个字节仍与ASCII相容,使得原来处理ASCII字符的软件无须或只进行少部份修改后,便可继续使用。因此,它逐渐成为电子邮件、网页及其他存储或传送文字的应用中,优先采用的编码。

这里的8表示8位,就是说,一个字符最多可以占8个位置。但是如果只要要一个位置就能表达,就别扯淡去占用空间了,能用一位表示就用一位;不行就两位,再不行就三位........一直到8位。


为啥会乱码???

知道了编码规则,就很好解释为什么会出现乱码现象了。

如果你在大街上看到一个法语单词,你以为这是英语单词,你就去抱着英汉词典去查,这样能查到吗?

有些人要反驳了!

的确有可能查到啊。 比如英文的style和法语的style一模一样,只是发音不同。 

这就对了嘛!!! 所以,有的时候,出现错误了编码,我们还是能看懂一些东西,或者说有那么一部分它的编码还是相通的。

那要怎么去解决乱码的问题呢? 最简单有效的方法就是在代码的后面加上一个encoding = '编码',比如,encoding = 'utf-8'就可以了。 

有的人可能还是不理解,以上图为例,报错出现了UnicodeDecodeError: 'utf-8' codes cant't decode byte 0xd0 in position 0: invalid continuation byte。

这个是什么意思呢? 就是解析解码出错了!!! 使用utf-8无法正确地解析一些编码,那我们换一种编码就好了嘛!!

也就是这个亚子:

f = open('Demo.txt', 'r+', encoding = 'gbk')

注意:可以多尝试不同的编码方式!


如何查看文件的编码方式?

详见:https://jingyan.baidu.com/article/ff42efa9e04733c19e2202f4.html

今天的文章 浅谈编码——编码是什么? 为什么会出现乱码?分享到此就结束了,感谢您的阅读。
编程小号
上一篇 2025-01-03 18:27
下一篇 2025-01-03 18:21

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
如需转载请保留出处:https://bianchenghao.cn/bian-cheng-ji-chu/100422.html