2009年4月14日随笔档案 - 没有眼泪

2009年4月14日

在javaweb开发过程中get和post乱码是一个老生常谈的话题了，相信人人都遇到过。网上的文章也很多，但往往是看的越多就越糊涂，有些东西只有自己了然于心才能真正地明白。下面就写一篇文章，就乱码产生的过程分析一下。
为什么会产生乱码？

1. 为什么会产生乱码？

因为浏览器不允许提交非ASCII字符，如果提交了非ASCII，则浏览器自动对其进行编码，将它们转换为ASCII字符。根据浏览器的不同，转换时使用的编码也不同，比如有些浏览器会使用utf-8进行编码，而有些会使用gbk进行编码。

2. 浏览器为什么不允许提交非ASCII字符？

以下是我个人观点，仅供参考。

因为浏览器和服务器通信，传输的都是字节。而我们在页面提交的都是字符，所以浏览器底层就有一个将字符转换为字节的过程，这个过程涉及到编码，浏览器到底是用utf-8、gbk还是iso-8859-1将字符转换为字节呢？我想应该是iso-8859-1，因为这是西欧默认使用的编码。何况，也没有任何理由使用前两种编码格式。但是iso-8859-1编码是不能识别中文以及其他非ASCII字符的，所以如果字符中存在这类字符，那么将字符转换为字节的过程中势必会产生乱码。为了避免这种情况的发生，浏览器自动对非ASCII字符进行了编码，将这类字符转换为ASCII字符，这样就能避免乱码问题。

3. GET和POST提交表单，分别根据什么对非ASCII字符进行编码？

GET：

情况比较复杂，不同浏览器也不一样，有的使用gbk，有的使用utf-8不好一概而论。

POST：

浏览器会根据网页编码对表单中的数据编码。比如我们在jsp页面第一行所写的：<%@page contentType="text/html;charset=UTF-8"%>。那么这个网页响应给客户端后使用的就是utf-8编码，那么post时使用的也是这个编码。

编码后的格式可以参考java中的URLEncoder.encode方法编码的结果。

4. 服务器底层如何处理提交的数据。

上面2已经提到，客户端和服务器端传输的是字节，那么服务器端接收到的原始数据就是字节。但是我们的程序通常需要从服务器获取字符，而不是字节，所以服务器端必须将字节转换为字符。这里也涉及编码，服务器采取什么编码方式将字节转换为字符？我想也是iso-8859-1，这样和客户端的编码方式一致，不会产生乱码，相当于一个还原字符的过程。这里有个问题，比如客户端发送：name=%D6%D0%B9%FA，那么服务器端还原后也是：name=%D6%D0%B9%FA。那么我们使用request.getParameter(“name”)如何能得到正确的值呢？难道要我们自己再进行转换？答案是：NO。根据Servlet规范，Servlet中获取数据的方法会按照指定的字符集解码。指定的字符集是什么？默认是iso-8859-1。正是因为使用了iso-8859-1解码我们发送的参数，导致了乱码的产生，这里才是产生乱码的源头。具体解码的过程可以看看java的URLDecode.decode方法。既然知道了产生乱码的原因是因为服务器默认使用iso-8859-1解码，那我们就得想办法更改服务器使用的解码编码。好在服务器已经提供给我们修改的方式了，我们可以在服务器中进行配置，比如Tomcat可以在server.xml中进行配置，比如：URIEncoding="GBK"这样服务器就会使用gbk编码解码，这种方式主要针对GET提交的数据，对于POST更常用的是request.setCharacterEncoding(String charset)设置解码编码。

5. 为了避免乱码，客户端应该如何做？

GET：

对于含有非ASCII字符的URL自己进行编码，比如使用javascript中的方法进行编码。这样就不需要浏览器为我们编码了，从而解决了浏览器编码的不确定性。

POST：

只要正确设置网页编码即可。

posted @ 2013-07-27 16:56 zhangchao 阅读(4380) | 评论 (2) | 编辑收藏

Java编码问题汇总

摘要: 工作中经常遇到java编码问题，由于缺乏研究，总是无法给出确切的答案，这个周末在网上查了一些资料，在此做些汇总。问题一：在java中读取文件时应该采用什么编码？ Java读取文件的方式总体可以分为两类：按字节读取和按字符读取。按字节读取就是采用InputStream.read()方法来读取字节，然后保存到一个byte[]数组中，最后经常用new Stri... 阅读全文

posted @ 2011-05-26 10:35 zhangchao 阅读(40449) | 评论 (19) | 编辑收藏

深入研究Servlet线程安全性问题

Servlet/JSP技术和ASP、PHP等相比，由于其多线程运行而具有很高的执行效率。由于Servlet/JSP默认是以多线程模式执行的，所以，在编写代码时需要非常细致地考虑多线程的安全性问题。然而，很多人编写Servlet/JSP程序时并没有注意到多线程安全性的问题，这往往造成编写的程序在少量用户访问时没有任何问题，而在并发用户上升到一定值时，就会经常出现一些莫明其妙的问题。

　　Servlet的多线程机制

Servlet体系结构是建立在Java多线程机制之上的，它的生命周期是由Web容器负责的。当客户端第一次请求某个Servlet 时，Servlet容器将会根据web.xml配置文件实例化这个Servlet类。当有新的客户端请求该Servlet时，一般不会再实例化该 Servlet类，也就是有多个线程在使用这个实例。Servlet容器会自动使用线程池等技术来支持系统的运行，如图1所示。

　　图1 Servlet线程池

　　这样，当两个或多个线程同时访问同一个Servlet时，可能会发生多个线程同时访问同一资源的情况，数据可能会变得不一致。所以在用Servlet构建的Web应用时如果不注意线程安全的问题，会使所写的Servlet程序有难以发现的错误。

　　Servlet的线程安全问题

　　Servlet的线程安全问题主要是由于实例变量使用不当而引起的，这里以一个现实的例子来说明。

Import javax.servlet. *;

Import javax.servlet.http. *;

Import java.io. *;

Public class Concurrent Test extends HttpServlet {PrintWriter output;

Public void service (HttpServletRequest request,

HttpServletResponse response) throws ServletException, IOException {String username;

Response.setContentType ("text/html; charset=gb2312");

Username = request.getParameter ("username");

Output = response.getWriter ();

Try {Thread. sleep (5000); //为了突出并发问题，在这设置一个延时

} Catch (Interrupted Exception e){}

output.println("用户名:"+Username+"<BR>");

}

}

该Servlet中定义了一个实例变量output，在service方法将其赋值为用户的输出。当一个用户访问该Servlet时，程序会正常的运行，但当多个用户并发访问时，就可能会出现其它用户的信息显示在另外一些用户的浏览器上的问题。这是一个严重的问题。为了突出并发问题，便于测试、观察，我们在回显用户信息时执行了一个延时的操作。假设已在web.xml配置文件中注册了该Servlet，现有两个用户a和b同时访问该Servlet（可以启动两个IE浏览器，或者在两台机器上同时访问）,即同时在浏览器中输入：

　　a： http://localhost: 8080/servlet/ConcurrentTest? Username=a

　　b： http://localhost: 8080/servlet/ConcurrentTest? Username=b

　　如果用户b比用户a回车的时间稍慢一点，将得到如图2所示的输出：

　　图2 a用户和b用户的浏览器输出

从图2中可以看到，Web服务器启动了两个线程分别处理来自用户a和用户b的请求，但是在用户a的浏览器上却得到一个空白的屏幕，用户a的信息显示在用户b的浏览器上。该Servlet存在线程不安全问题。下面我们就从分析该实例的内存模型入手,观察不同时刻实例变量output的值来分析使该 Servlet线程不安全的原因。

　　Java的内存模型JMM（Java Memory Model）JMM主要是为了规定了线程和内存之间的一些关系。根据JMM的设计，系统存在一个主内存(Main Memory)，Java中所有实例变量都储存在主存中，对于所有线程都是共享的。每条线程都有自己的工作内存(Working Memory)，工作内存由缓存和堆栈两部分组成，缓存中保存的是主存中变量的拷贝，缓存可能并不总和主存同步，也就是缓存中变量的修改可能没有立刻写到主存中；堆栈中保存的是线程的局部变量，线程之间无法相互直接访问堆栈中的变量。根据JMM，我们可以将论文中所讨论的Servlet实例的内存模型抽象为图3所示的模型。

　　图3 Servlet实例的JMM模型

　　下面根据图3所示的内存模型，来分析当用户a和b的线程（简称为a线程、b线程）并发执行时，Servlet实例中所涉及变量的变化情况及线程的执行情况，如图4所示。

调度时刻	a线程	b线程
T1	访问Servlet页面
T2		访问Servlet页面
T3	output=a的输出username=a休眠5000毫秒，让出CPU
T4		output=b的输出（写回主存）username=b休眠5000毫秒，让出CPU
T5	在用户b的浏览器上输出a线程的username的值,a线程终止。
T6		在用户b的浏览器上输出b线程的username的值,b线程终止。

　　图4 Servlet实例的线程调度情况

从图4中可以清楚的看到，由于b线程对实例变量output的修改覆盖了a线程对实例变量output的修改，从而导致了用户a的信息显示在了用户b的浏览器上。如果在a线程执行输出语句时，b线程对output的修改还没有刷新到主存，那么将不会出现图2所示的输出结果，因此这只是一种偶然现象，但这更增加了程序潜在的危险性。

　　设计线程安全的Servlet

　　通过上面的分析，我们知道了实例变量不正确的使用是造成Servlet线程不安全的主要原因。下面针对该问题给出了三种解决方案并对方案的选取给出了一些参考性的建议。

　　1、实现 SingleThreadModel 接口

该接口指定了系统如何处理对同一个Servlet的调用。如果一个Servlet被这个接口指定,那么在这个Servlet中的service方法将不会有两个线程被同时执行，当然也就不存在线程安全的问题。这种方法只要将前面的Concurrent Test类的类头定义更改为：

Public class Concurrent Test extends HttpServlet implements SingleThreadModel {

…………

}

　　2、同步对共享数据的操作

　　使用synchronized 关键字能保证一次只有一个线程可以访问被保护的区段，在本论文中的Servlet可以通过同步块操作来保证线程的安全。同步后的代码如下：

…………

Public class Concurrent Test extends HttpServlet { …………

Username = request.getParameter ("username");

Synchronized (this){

Output = response.getWriter ();

Try {

Thread. Sleep (5000);

} Catch (Interrupted Exception e){}

output.println("用户名:"+Username+"<BR>");

}

}

}

　　3、避免使用实例变量

　　本实例中的线程安全问题是由实例变量造成的，只要在Servlet里面的任何方法里面都不使用实例变量，那么该Servlet就是线程安全的。

　　修正上面的Servlet代码，将实例变量改为局部变量实现同样的功能，代码如下：

……

Public class Concurrent Test extends HttpServlet {public void service (HttpServletRequest request, HttpServletResponse

Response) throws ServletException, IOException {

Print Writer output;

String username;

Response.setContentType ("text/html; charset=gb2312");

……

}

}

对上面的三种方法进行测试，可以表明用它们都能设计出线程安全的Servlet程序。但是，如果一个Servlet实现了 SingleThreadModel接口，Servlet引擎将为每个新的请求创建一个单独的Servlet实例，这将引起大量的系统开销。 SingleThreadModel在Servlet2.4中已不再提倡使用；同样如果在程序中使用同步来保护要使用的共享的数据，也会使系统的性能大大下降。这是因为被同步的代码块在同一时刻只能有一个线程执行它，使得其同时处理客户请求的吞吐量降低，而且很多客户处于阻塞状态。另外为保证主存内容和线程的工作内存中的数据的一致性，要频繁地刷新缓存,这也会大大地影响系统的性能。所以在实际的开发中也应避免或最小化 Servlet 中的同步代码；在Serlet中避免使用实例变量是保证Servlet线程安全的最佳选择。从Java 内存模型也可以知道，方法中的临时变量是在栈上分配空间，而且每个线程都有自己私有的栈空间，所以它们不会影响线程的安全。

　　小结

Servlet的线程安全问题只有在大量的并发访问时才会显现出来，并且很难发现，因此在编写Servlet程序时要特别注意。线程安全问题主要是由实例变量造成的,因此在Servlet中应避免使用实例变量。如果应用程序设计无法避免使用实例变量，那么使用同步来保护要使用的实例变量，但为保证系统的最佳性能，应该同步可用性最小的代码路径。

原文出处:http://www.feeten.cn/html/jsp/01/20090102181631103402.html
作者:佚名

posted @ 2009-05-31 10:06 zhangchao 阅读(439) | 评论 (0) | 编辑收藏

java.io.File中的绝对路径和相对路径.

File类是用来构造文件或文件夹的类,在其构造函数中要求传入一个String类型的参数,用于指示文件所在的路径.以前一直使用绝对路径作为参数,其实这里也可以使用相对路径.使用绝对路径不用说,很容易就能定位到文件,那么使用了相对路径jvm如何定位文件的呢?

按照jdk Doc上的说法”绝对路径名是完整的路径名，不需要任何其他信息就可以定位自身表示的文件。相反，相对路径名必须使用来自其他路径名的信息进行解释。默认情况下，java.io 包中的类总是根据当前用户目录来分析相对路径名。此目录由系统属性 user.dir 指定，通常是 Java 虚拟机的调用目录.”

相对路径顾名思义,相对于某个路径,那么究竟相对于什么路径我们必须弄明白.按照上面jdk文档上讲的这个路径是”当前用户目录”也就是”java虚拟机的调用目录”.更明白的说这个路径其实是我们在哪里调用jvm的路径.举个例子:

假设有一java源文件Example.java在d盘根目录下,该文件不含package信息.我们进入命令行窗口,然后使用”d:”命令切换到d盘根目录下,然后用”javac Example.java”来编译此文件,编译无错后,会在d盘根目录下自动生成”Example.class”文件.我们在调用”java Example”来运行该程序.此时我们已经启动了一个jvm,这个jvm是在d盘根目录下被启动的,所以此jvm所加载的程序中File类的相对路径也就是相对这个路径的,即d盘根目录:D:\.同时” 当前用户目录”也是D:\.在System.getProperty(“user.dir”);系统变量”user.dir”存放的也是这个值.

我们可以多做几次试验,把”Example.class”移动到不同路径下,同时在那些路径下,执行”java Example”命令启动jvm,我们会发现这个”当前用户目录”是不断变化的,它的路径始终和我们在哪启动jvm的路径是一致的.

搞清了这些,我们可以使用相对路径来创建文件,例如:

File file = new File(“a.txt”);

File.createNewFile();

假设jvm是在”D:\”下启动的,那么a.txt就会生成在D:\a.txt;

此外,这个参数还可以使用一些常用的路径表示方法,例如”.”或”.\”代表当前目录,这个目录也就是jvm启动路径.所以如下代码能得到当前目录完整路径:

File f = new File(“.”);

String absolutePath = f.getAbsolutePath();

System.out.println(absolutePath);//D:\

最后要说说在eclipse中的情况:

Eclipse中启动jvm都是在项目根路径上启动的.比如有个项目名为blog,其完整路径为:D:\work\IDE\workspace\blog.那么这个路径就是jvm的启动路径了.所以以上代码如果在eclipse里运行,则输出结果为” D:\work\IDE\workspace\blog.”

Tomcat中的情况.

如果在tomcat中运行web应用,此时,如果我们在某个类中使用如下代码:

File f = new File(“.”);

String absolutePath = f.getAbsolutePath();

System.out.println(absolutePath);

那么输出的将是tomcat下的bin目录.我的机器就是” D:\work\server\jakarta-tomcat-5.0.28\bin\.”,由此可以看出tomcat服务器是在bin目录下启动jvm的.其实是在bin目录下的” catalina.bat”文件中启动jvm的.

posted @ 2009-04-15 00:01 zhangchao 阅读(17789) | 评论 (10) | 编辑收藏

session cookie详解.

通常所说的cookie实际上可以分为2种,一种是由Cookie对象产生的保存在客户端硬盘上的持久化的cookie,另一种就是由session对象产生的保存在浏览器内存里的session cookie.session cookie的组成是形如: JSESSIONID=0EB8CEDE030A4B6FB5366317D8BF1978(tomcat下).Session cookie何时产生?当新创建一个session对象时产生session cookie.当使用request.getSession()或request.getSession(true)方法时,如果请求范围内根据jsessionid能够找到一个对应的session对象,则不产生session cookie也不返回给客户端保存,找不到则新创建一个session cookie并生成一个形如JSESSIONID=0EB8CEDE030A4B6FB5366317D8BF1978(tomcat下)的session cookie并放在本次响应头信息中返回给客户端保存,客户端之前保存的session cookie也将被这个session cookie所代替.与session cookie不同的是,如果服务器端明确使用Cookie类来生成的持久化cookie将在每次响应中返回给客户端保存,不管客户端是否存在这个cookie.当浏览器接受cookie后(不管是持久化cookie还是session cookie),在对同一站点进行访问时,会自动把这些cookie信息放在请求头信息中一起发送给服务器端.这样服务器端就能得到这些cookie来跟踪会话.向服务器端发送cookie这个过程对用户来是完全透明的,是浏览器自动进行的.

以上讨论是在浏览器接受cookie的情况下,下面谈谈浏览器禁用cookie的情况.

如果浏览器禁用了cookie,那么浏览器不会接收保存服务器端存在响应头中的cookie信息(ie6有bug,会保存session cookie).浏览器再次访问同一站点时,请求头信息里也不会携带任何cookie信息的(因为浏览器根禁止了该功能).正因如此,服务器端接收不到客户端的cookie信息,也就无法识别客户端的身份,从而把它当作一个新的客户对待,也就会丢失以前的会话信息.在这种情况下服务器端使用request.getSession()或request.getSession(true)方法时将会重新创建一个session.

那么如何在用户禁用了cookie的情况下维护会话呢?以上讨论我们已经知道,服务器端判断是新的会话还是旧的会话是根据请求头中是否有一个jsessionid的.由于浏览器禁用了cookie从而不会自动向服务器发送这个参数,那么要维持会话就需要我们自己每次服务器发送请求时带上这个参数.url重写正是这样一种技术,只要在我们的代码中把所有向服务器发送请求的地方用response.encodeRedirectUrl(String arg0)包装一下,这样我们请求的url就会自动加上当前session对象产生的jsessionid.服务器端也能取得这个值从而识别客户端.

posted @ 2009-04-14 23:59 zhangchao 阅读(881) | 评论 (0) | 编辑收藏

常用链接

留言簿(2)

随笔分类

随笔档案

搜索

最新评论

阅读排行榜

评论排行榜