找文章 / 找答案
精选问答 更多内容

[大数据] 编码

BoJie青铜四 显示全部楼层 发表于 2020-7-17 13:53:30 |阅读模式 打印 上一主题 下一主题
本帖最后由 BoJie 于 2020-7-17 13:56 编辑



1. 描述
编码就是将源对象的信息内容按照一种标准格式或形式转换为另一种标准格式。n 位二进制数可以组合成 2 的 n 次方个不同的信息,给每个信息规定一个具体码组,此过程也叫编码。
举个简单的例子,在中国,标准的语言是普通话,一个说英语的美国人来到中国,他的话就需要先翻译成中文才被中国人接受,这个翻译的过程就是编码的过程。


2. 编码原理
因世界上有不同的语言和文字,所以需要将不同的文字编码,通过计算机处理和传输。现在编码的种类非常多,主要目的就是为了信息间的转换。


3. 分类
目前常用的字符编码有:
    ASCII(美国标准信息交换码)、EBCDIC(扩展的BCD交换码)、GB2312、Unicode、UTF-8、ISO-8859-1 及 GBK 。
   下面就一般使用率较高及易混淆的编码作讲解。


3.1 ISO-8859-1
属于单字节编码,最多能表示的字符范围是 0-255,应用于英文系列。比如,字母'a'的编码为 0x61=97。
很明显,ISO-8859-1 编码表示的字符范围很窄,无法表示中文字符。但是,由于是单字节编码,和计算机最基础的表示单位一致,所以很多时候,仍旧使用 ISO-8859-1 编码来表示。而且在很多协议上,默认使用该编码。比如,虽然"中文"两个字不存在 ISO-8859-1 编码,以 gb2312 编码为例,应该是"d6d0 cec4"两个字符,使用 ISO-8859-1 编码的时候则将它拆开为 4个字节(一个字节等于 8 位二进制数)来表示:"d6 d0 ce c4"(事实上,在进行存储的时候,也是以字节为单位处理的)。而如果是 UTF 编码,则是 6 个字节"e4 b8 ad e6 96 87"。很明显,这种表示方法还需要以另一种编码为基础。


3.2 GB2312/GBK
这就是汉字的国标码,专门用来表示汉字,是双字节编码,而英文字母和 ISO-8859-1 一致(兼容  ISO-8859-1 编码)。其中 GBK 编码能够用来同时表示繁体字和简体字,而 GB2312 只能表示简体字,GBK是兼容 GB2312 编码的。


3.3 Unicode
这是最统一的编码,可以用来表示所有语言的字符,而且是定长双字节(也有四字节的)编码,包括英文字母在内。所以可以说它是不兼容 ISO-8859-1 编码的,也不兼容任何编码。不过,相对于 ISO-8859-1 编码来说,Uniocode 编码只是在前面增加了一个0字节,比如字母'a'为"00 61"。
需要说明的是,定长编码便于计算机处理(注意 GB2312/GBK 不是定长编码),而 Unicode 又可以用来表示所有字符,所以在很多软件内部是使用 Unicode 编码来处理的,比如 Java。


3.4 UTF
考虑到 Unicode 编码不兼容 ISO-8859-1 编码,而且容易占用更多的空间:因为对于英文字母,Unicode 也需要两个字节来表示。所以 Unicode 不便于传输和存储。因此而产生了 UTF 编码,UTF 编码兼容 ISO-8859-1 编码,同时也可以用来表示所有语言的字符,不过,utf编码是不定长编码,每一个字符的长度从 1-6 个字节不等。另外,UTF 编码自带简单的校验功能。一般来讲,英文字母都是用一个字节表示,而汉字使用三个字节。
注意,虽然说 UTF 是为了使用更少的空间而使用的,但那只是相对于 Unicode 编码来说,如果已经知道是汉字,则使用 GB2312/GBK 无疑是最节省的。不过另一方面,值得说明的是,虽然 UTF 编码对汉字使用 3 个字节,但即使对于汉字网页,UTF 编码也会比 Unicode 编码节省,因为网页中包含了很多的英文字符。

回复

使用道具 举报

精彩评论1

翻滚吧巨人铂金四 显示全部楼层 发表于 2020-7-17 20:01:28
赞赞赞
回复

使用道具 举报

高级模式
您需要登录后才可以回帖 登录 | 免费注册

  • 官方微信

    欢迎关注永洪服务号!收费为0,价值无限

    扫码关注
  • 新浪微博

    让每位用户轻松挖掘数据价值!

    访问新浪微博
  • 智能客服
50W

会员等你来哦

Copyright   ©2012-2024  北京永洪商智科技有限公司  (京ICP备12050607) 京公网安备110110802011451号 |《永洪社区协议》
返回顶部