string的getbytes()方法是得到一个字串的字节数组,这是众所周知的。但特别要注意的是,本方法将返回该操作系统默认的编码格式的字节数组。如果你在使用这个方法时不考虑到这一点,你会发现在一个平台上运行.
良好的系统,放到另外一台机器后会产生意想不到的问题。比如下面的程序,class testcharset { public static void main(string[] args) { new testcharset().execute(); } private void execute() { string s = "hello!你好!"; byte[] bytes = s.getbytes(); system.out.println("bytes lenght is:" + bytes.length); }}
在一个中文windowsxp系统下,运行时,结果为:bytes lenght is:12
但是如果放到了一个英文的unix环境下运行:
$ java testcharset
bytes lenght is:9
如果你的程序依赖于该结果,将在后续操作中引起问题。为什么在一个系统中结果为12,而在另外一个却变成了9了呢?上面已经提到了,该方法是和平台(编码)相关的。在中文操作系统中,getbytes方法返回的是一个gbk或者gb2312的中文编码的字节数组,其中中文字符,各占两个字节。而在英文平台中,一般的默认编码是“iso-8859-1”,每个字符都只取一个字节(而不管是否非拉丁字符)。
java中的编码支持
java是支持多国编码的,在java中,字符都是以unicode进行存储的,比如,“你”字的unicode编码是“4f60”,我们可以通过下面的实验代码来验证:
class testcharset { public static void main(string[] args) { char c = '你'; int i = c; system.out.println(c); system.out.println(i); }}
不管你在任何平台上执行,都会有相同的输出:
----------------- output ------------------
你
20320
20320就是unicode “4f60”的整数值。其实,你可以反编译上面的类,可以发现在生成的.class文件中字符“你”(或者其它任何中文字串)本身就是以unicode编码进行存储的:
char c = '\u4f60'; ... ...
Java Asp PHP .Net XML C/C++ CGI VB Jsp J2ee J2se J2me EJB Servlet Tomcat Resin Struts Weblogic Eclipse ANT GUI JMS Web servise IDEA Webphere Hibernate Spring Jboss Applet Swing Socket Javamail Perl Ajax P2P 安全 模式 框架 测试 开源 游戏
Windows XP Windows 2000 Windows 2003 Windows Me Windows 9.x Linux UNIX 注册表 操作系统 服务器 应用服务器