[转载]MIME邮件的编码方式

转自：http://book.csdn.net/bookfiles/402/10040214756.shtml

MIME邮件的编码方式

由于每个ASCII码字符只占用一个字节（8个bit位），且最高bit位总为0，即ASCII码字符中的有真正意义的信息只是后面的7个低bit位，而传统的SMTP协议又是基于ASCII码字符设计的，因此，一些基于传统SMTP协议设计的SMTP服务器在处理邮件内容时只取出每个字节中的7个低bit位进行处理，而将最高bit位忽略不计。显然，这样的SMTP服务器在处理包含有非ASCII码字符的邮件内容时，会出现严重的问题，这就限制了邮件中只能出现英文的ASCII码字符，而不能出现中文字符或二进制数据。

为了能够在邮件内容中包含中文、图像或声音等非ASCII字符的数据，人们想到了采用某种编码方式将非ASCII字符的数据转换成可打印的ASCII字符后再发送，邮件阅读程序则按照相应的解码方式从邮件中还原出原始数据即可，比较常用的两种邮件编码方式为BASE64和Quoted-printable。后来的扩展SMTP协议允许直接在邮件中传递二进制数据，而不用对它们进行邮件编码，人们将这种没有进行邮件编码的二进制数据的邮件内容称为8bit编码，为了与此相区别，人们将没有进行邮件编码的纯ASCII码字符的邮件称为7bit编码。MIME消息体的邮件编码方式通过MIME消息头中的Content- Transfer- Encoding头字段指定，每种邮件编码方式的介绍如下：

— 7Bit

指消息体内容全部是没有经过编码的ASCII字符。

— 8Bit

指消息体内容是没有经过编码的原始数据，且其中包含有非ASCII字符的数据。现在的邮件服务器基本上都支持8Bit编码，使用支持8Bit编码的邮件服务器可以简化邮件的处理过程。

— BASE64

Base64是将二进制数据转换成可打印的ASCII字符的一种最常见的编码方式，它的基本原理是将一组连续的字节数据按6个bit位进行分组，然后对每组数据用一个ASCII字符来表示。6个bit位最多能表示2⁶＝64个数值，因此可以使用64个ASCII字符来对应这64个数值，这64个ASCII字符为：

"ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz0123456789+/"

其中每个字符表示的数值就是该字符在上面的排列中的索引号，索引号从0开始编号。假设在内存中有如下三个连续的字节数据：

[0110,0001] [0110,0010] [0110,0011]

将它们按6个bit位进行分组后的形式如下：

[0110,00] [01,0110,] [0010,01] [10,0011]

分组后得到了四组数据，每组数据对应的十进制数值分别为24、22、9、35，它们分别对应Y、W、J、j这四个字符，所以，对[0110,0001] [0110,0010] [0110,0011]这三个字节的数据进行BASE64编码后的结果是“YWJj”。

BASE64编码要求把3个8位字节（即24个bit）的数据转化为4个6位字节（也是24个bit）的数据，如果原来的8位字节数据的字节个数不能被3整除，其余数只能是1或2，那么如何对余下的1个或2个8位字节数据进行处理呢？对于这种情况，仍然按6个bit位对剩余的字节进行分组，在最后不够6个bit位的内容后面添加几个为0的bit位来凑成6个bit位，例如，如果最后剩下的一个8位字节的内容如下：

[0110,0001]

对它进行分组后的结果如下：

[0110,00] [01,0000]

其中用黑斜体标识的0为填充的bit位，所以，最后剩下的这个字节的BASE64编码结果为“YQ”。BASE64编码还有规定，如果编码后的整个结果文本的字符个数不是4的整数倍，那么需要在最后填充“=”字符来凑成4的倍数，所以，在最后这个字节编码的结果后面还要添加两个“=”字符，即“YQ==”。显然，如果最后剩下两个8位字节的内容，它可以被编码成三个字符，最后还需要添加一个“=”字符。对一大段数据进行BASE64编码时，可以在编码结果中的适当位置加入回车换行，MIME规范建议BASE64编码结果中的每行最多76个字符。

— Quoted-printable

Quoted-printable也是一种将二进制数据转换成可打印的ASCII字符的编码方式，它对ASCII字符不进行转换，只对非ASCII字符的数据进行编码转化。每个非ASCII字符的字节数据，都被转换成一个"="号后跟这个字节的十六进制数据，例如，“ab中国”的Quoted-printable编码结果为“ab=d6=d0=b9= fa”。显然，由于"="号在Quoted-printable编码中具有的特殊意义，所以，原始数据中的"="号字符也需要进行编码转换，用“=3d”表示。

对一大段数据进行Quoted-printable编码时，可以在编码结果中的适当位置加入回车换行，在回车换行前需要额外再加入一个“=”字符，以表示后面的换行是因编码而造成的软回车，而非原始数据中原有的回车换行。例如，对于下面一段Quoted-printable编码后的数据：

=D5=E2=CA=C7=CD=A8=D0=C5=B5=C4=B3=CC=D0=

=F2, =C7=EB=D6=B8=BD=CC!

在第一行末尾的“=”字符和换行，都是由于编码后生成的。

posted on 2008-07-31 10:52 春天花会开阅读(2658) 评论(0) 编辑收藏

新用户注册刷新评论列表


只有注册用户登录后才能发表评论。




网站导航: 博客园 IT新闻 Chat2DB C++博客博问管理

春天花会开

导航

随笔档案(18)

文章档案(1)

相册

统计

留言簿(4)

阅读排行榜

评论排行榜

[转载]MIME邮件的编码方式