1、位(bit) 来自英文bit,音译为“比特”,表示二进制位。位是计算机内部数据储存的最小单位,11010100是一个8位二进制数。一个二进制位只可以表示0和1两种状态(21);两个二进制位可以表示00、01、10、11四种(22)状态;三位二进制数可表示八种状态(23)……。
2、字节(byte) 字节来自英文Byte,音译为“拜特”,习惯上用大写的“B”表示。 字节是计算机中数据处理的基本单位。计算机中以字节为单位存储和解释信息,规定一个字节由八个二进制位构成,即1个字节等于8个比特(1Byte=8bit)。八位二进制数最小为00000000,最大为11111111;通常1个字节可以存入一个ASCII码,2个字节可以存放一个汉字国标码。
3、字 计算机进行数据处理时,一次存取、加工和传送的数据长度称为字(word)。一个字通常由一个或多个(一般是字节的整数位)字节构成。例如286微机的字由2个字节组成,它的字长为16;486微机的字由4个字节组成,它的字长为32位机。 计算机的字长决定了其CPU一次操作处理实际位数的多少,由此可见计算机的字长越大,其性能越优越。
一个ascll码就是一个字节, 因为ascll码的二进制范围是00000000到11111111, 十进制范围是0到255,
unicode指的是UCS-2的编码方式, 是以两个字节的长度
utf-8是一种变长的编码方式,它可以使用1~4个字节表示一个符号,根据不同的符号而变化字节长度
utf-16是,好处在于大部分字符都以固定长度的字节 (2字节) 储存,但UTF-16却无法兼容于ASCLL编码
UTF-32(或 UCS-4)是以4个字节的长度固定存储的;
每一个字节文件都是以约定的编码进行存储的:
比如utf-8是使用作为:EF BB BF 开头的, utf-8格式的文件16进制如下:
ANSI是window下的默认格式,英文会以ASCLL码存储,而中文会以GBK码就行存储;
如果是unicode的话, 会以FE FF和 FF FE这两种大头小头的方式约定存储, unicode格式的16进制文件如下:
字符编码笔记:ASCII,Unicode和UTF-8 http://www.ruanyifeng.com/blog/2007/10/ascii_unicode_and_utf-8.html
Unicode与JavaScript详解 http://www.ruanyifeng.com/blog/2014/12/unicode.html