/*
* unicodetest.java
*
* created on july 29, 2003, 12:59 pm
*/
/**
*
* @author abc
* @version
*/
public class unicodetest
{
public static void main(string args[])
{
unicodetest ut = new unicodetest();
ut.test1();
}
public void test1()
{
string str = "测试信息abc123";
try
{
byte[] b = str.getbytes("gbk");
system.out.println(str + " -(gbk)编码: " + bytestohexstr(b));
system.out.println("");
str = new string(b, "gbk");
system.out.println("从gbk编码 " + bytestohexstr(b) + " 重新转换为字串: " + str);
system.out.println("");
b = str.getbytes("unicodebigunmarked");
system.out.println(str + " -(ucs2)编码: " + bytestohexstr(b));
system.out.println("");
str = new string(b, "unicodebigunmarked");
system.out.println("从(ucs2)编码 " + bytestohexstr(b) + " 重新转换为字串: " + str);
system.out.println("");
b = str.getbytes("ascii");
system.out.println(str + " -(ascii)编码: " + bytestohexstr(b));
system.out.println("");
}
catch(exception e){}
}
private string bytestohexstr(byte[] b)
{
if (b == null) return "";
stringbuffer strbuffer = new stringbuffer(b.length * 3);
for(int i = 0; i < b.length; i++)
{
strbuffer.append(integer.tohexstring(b & 0xff));
strbuffer.append(" ");
}
return strbuffer.tostring();
}
}
运行此小程序的输出结果是:
测试信息abc123 -(gbk)编码: b2 e2 ca d4 d0 c5 cf a2 61 62 63 31 32 33
从gbk编码 b2 e2 ca d4 d0 c5 cf a2 61 62 63 31 32 33 重新转换为字串: 测试信息abc123
测试信息abc123 -(ucs2)编码: 6d 4b 8b d5 4f e1 60 6f 0 61 0 62 0 63 0 31 0 32 0 33
从(ucs2)编码 6d 4b 8b d5 4f e1 60 6f 0 61 0 62 0 63 0 31 0 32 0 33 重新转换为字串: 测试信息abc123
测试信息abc123 -(ascii)编码: 3f 3f 3f 3f 61 62 63 31 32 33
这段时间都在做联通的sp网关程序,原来我是做web应用的,对数据库之类的java编程比较熟悉。原来也从来没有接触过短信网关方面的系统设计和编程。在这个过程中碰到了几个比较棘手的问题,ucs2的转码就是其中一个。
刚开始我们公司的业务没有涉及到中文信息,所以没有注意这个问题,用户只需要发送字母和数字就可以了,但是最近几天我在数据库中发现了一些乱码,messagecoding=8,我猜测可能和用户手机的输入法有关系,即使是阿拉伯数字也有双字节的,比如“8”和“8”。
下面这段代码是底层的api:
.........(read bytes from input)
//获取消息编码
messagecoding = bodybytes[44];
//获取短消息内容的长度
sgip_command.bytescopy(bodybytes, abyte0, 45, 48, 0);
messagelength = sgip_command.bytes4toint(abyte0);
//创建一个内容长度的byte
messagebyte = new byte[messagelength];
//将message copy 到 messagebyte 中
sgip_command.bytescopy(bodybytes, messagebyte, 49, (49 + messagelength) - 1,0);
//开始解码转换
if(messagecoding==8){//如果编码格式为ucs2,就转换成普通的string
try {
messagecontent = new string(messagebyte,"unicodebigunmarked");
} catch (unsupportedencodingexception e) {
}
}else{
messagecontent = new string(messagebyte);
}
实际上在java中就只需要一句messagecontent = new string(messagebyte,"unicodebigunmarked");就可以转换过来,再保存到数据库中就不会是乱码了。
进行转换后,我还用了另外一个函数把类似“8”这样的gbk编码的阿拉伯数字都转换成了ascii的数字。这样对业务逻辑有帮助。
还有一点要说明一下,gb2312是一个比较早版本的中文编码格式,gbk是新的中文编码格式,gbk是gb2312的超集,gb2312是gbk的真子集。
我的底层api是使用的英斯克的底层api,不过我修改了英斯克的api几个不完善的地方。希望对碰到和我一样问题的同志有点帮助。
Java Asp PHP .Net XML C/C++ CGI VB Jsp J2ee J2se J2me EJB Servlet Tomcat Resin Struts Weblogic Eclipse ANT GUI JMS Web servise IDEA Webphere Hibernate Spring Jboss Applet Swing Socket Javamail Perl Ajax P2P 安全 模式 框架 测试 开源 游戏
Windows XP Windows 2000 Windows 2003 Windows Me Windows 9.x Linux UNIX 注册表 操作系统 服务器 应用服务器