posts - 5, comments - 6, trackbacks - 0

首先阅读此文之前，最好阅读
http://hi.baidu.com/maml897/blog/item/324bf86369961ed4e6113a5c.html

http://hi.baidu.com/maml897/blog/item/fa5f0a7e1edef00129388ae2.html

其次还要知道一点常识，就是我们在记事本等一些文本工具中写的都是字符，没有谁会去写字节（可以写字节，但是要用具特殊的编辑器），但是其实，我们的写的是字符，但磁盘上真实存储的是字节。

这里就出现了转换的问题，当然，这些问题记事本本身会帮助我们解决。我们打开一个记事本，然后文件--另存为，你会发现有几种存储格式供您选择，
ANSI格式：就是ascii的格式
Unicode格式：采用国际通用的编码存储
Unicode big endian格式：这个和unicode有点区别，但我也不明太具体的不同
UTF-8：采用utf-8存储，看过上面的两篇文章，你会十分的了解这里介绍的编码。Utf-8，是unicode的一种实现方式。

例如我们在记事本里面输入“连通”两个字。

1.我们另存记事本的时候，采用unicode存储，那么虽然我们看到的字符还是“连通”，但是其实存储在磁盘上的字节确实
8FDE（连） 901A （通），这个是规定的，unicode是国际上规定的，给世界上的每个字符分配的唯一编码。获取某个字符的unicode的方法，可以去网上查找，最简单的方法，就是打开word文档，输入字符，把光标移动到字符后面，按alt+x，word会自动把字符转换成unicode编码，这里呢我们也可以看到，用unicode存储汉字啊，每个汉字占用两个字节。

2.我们另存记事本的时候，采用utf-8存储，虽然我们看到的字符还是“连通”，但是其实存储在磁盘上的字节确实已经变化了，这时候存储的是
E8 BF 9E （连）E9 80 9A（通）。这就是utf-8的存储的编码，至于utf-8为什么这样存储，你可以阅读上面的两篇文章来了解，可以看到，utf-8使用3个字节存储一个汉字。

另外我们还要知道的就是：电脑怎么区分一个记事本是用什么存储的呢？
换句话说，为什么我用unicode存储的8FDE（连） 901A （通），电脑就知道这是unicode编码，从而使用unicode解码，还原为“连通”呢？电脑又怎么知道E8 BF 9E （连）E9 80 9A（通）这是按照utf-8的存储方式存储的呢？

这里有一点标记，就是在存储字节的时候，记事本首先在最前面标明，这个记事本下面的存储格式是utf-8，还是unicode。

例如，

1.unicode存储“连通”。磁盘字节真实存储的其实是：

FF FE 8FDE 901A

前两个FF FE是标记，告诉电脑，这个文档的存储方式是unicode

2.utf-8存储“连通”。磁盘字节真实存储的其实是：

EF BB BF E8 BF 9E E9 80 9A

前三个EF BB BF 告诉电脑这个文档是utf-8存储的

根据不同编码的特点和标志,对一个文本文件判断编码方法如下
1 . UTF7 所有字节的内容不会大于127,也就是不大于&HFF
2 . UTF8 起始三个字节为"0xEF 0xBB 0xBF"
3 . UTF-16BE 起始三个字节为"0xFE 0xFF"
4 . UTF-16LE 起始三个字节为"0xFF 0xFE"

import java.io.BufferedInputStream;

import java.io.File;

import java.io.FileInputStream;

public class FileEncodeReferee

{

private File file;

public FileEncodeReferee(File file)

{

this.file = file;

}

public FileEncodeReferee(String path)

{

file = new File(path);

}

public String getCharset()

{

File file = this.file;

String charset = "GBK";

byte[] first3Bytes = new byte[3];

BufferedInputStream bis = null;

try

{

//boolean checked = false;

bis = new BufferedInputStream(new FileInputStream(file));

bis.mark(0);

int read = bis.read(first3Bytes, 0, 3);

if (read == -1)

{

return charset;

}

if (first3Bytes[0] == (byte) 0xFF && first3Bytes[1] == (byte) 0xFE)

{

charset = "UTF-16LE";

//checked = true;

}

else if (first3Bytes[0] == (byte) 0xFE

&& first3Bytes[1] == (byte) 0xFF)

{

charset = "UTF-16BE";

//checked = true;

}

else if (first3Bytes[0] == (byte) 0xEF

&& first3Bytes[1] == (byte) 0xBB

&& first3Bytes[2] == (byte) 0xBF)

{

charset = "UTF-8";

//checked = true;

}

/** */

/*******************************************************************

* bis.reset(); if (!checked) { int loc = 0; while ((read =

* bis.read()) != -1) { loc++; if (read >= 0xF0) { break; } if (0x80 <=

* read && read <= 0xBF) // 单独出现BF以下的，也算是GBK { break; } if (0xC0 <=

* read && read <= 0xDF) { read = bis.read(); if (0x80 <= read &&

* read <= 0xBF)// 双字节 (0xC0 - 0xDF) { // (0x80 - 0xBF),也可能在GB编码内

* continue; } else { break; } } else if (0xE0 <= read && read <=

* 0xEF) { // 也有可能出错，但是几率较小 read = bis.read(); if (0x80 <= read &&

* read <= 0xBF) { read = bis.read(); if (0x80 <= read && read <=

* 0xBF) { charset = "UTF-8"; break; } else { break; } } else {

* break; } } } System.out.println(loc + " " +

* Integer.toHexString(read)); }

******************************************************************/

}

catch (Exception e)

{

e.printStackTrace();

}

finally

{

if (bis != null)

{

try

{

bis.close();

}

catch (Exception ex)

{

ex.printStackTrace();

}

return charset;

}

public static void main(String[] args)

{

FileEncodeReferee fer = new FileEncodeReferee("F://锁表1.sql");

System.out.println(fer.getCharset());

}

posted on 2010-01-10 19:56 浔阳江头夜送客阅读(422) 评论(0) 编辑收藏所属分类: java

新用户注册刷新评论列表


只有注册用户登录后才能发表评论。




网站导航: 博客园博客园最新博文博问管理
相关文章: 判断文件格式 net.sf.cglib.beans.BeanMap 重写toString()的用法 BeanUtils.copyProperties() 用法

2010年1月

日

一

二

三

四

五

六

常用链接

留言簿

随笔分类

随笔档案

myeclipse6.5上基于JAX-WS开发Webservice(中文示例)

常用链接

留言簿

随笔分类

随笔档案

myeclipse6.5上基于JAX-WS开发Webservice(中文示例)

搜索

最新评论

阅读排行榜

评论排行榜