选择显示字体大小

汉字不同编码转换的问题 ucs2转码的心得

/*
* unicodetest.java
*
* created on july 29, 2003, 12:59 pm
*/

/**
 *
 * @author abc
 * @version
 */

public class unicodetest
{

  public static void main(string args[])
  {
   unicodetest ut = new unicodetest();
   ut.test1();
  }

  public void test1()
  {
   string str = "测试信息abc123";
   try
   {
     byte[] b = str.getbytes("gbk");
     system.out.println(str + " -(gbk)编码: " + bytestohexstr(b));
     system.out.println("");

     str = new string(b, "gbk");
     system.out.println("从gbk编码 " + bytestohexstr(b) + " 重新转换为字串: " + str);
     system.out.println("");

     b = str.getbytes("unicodebigunmarked");
     system.out.println(str + " -(ucs2)编码: " + bytestohexstr(b));
     system.out.println("");

     str = new string(b, "unicodebigunmarked");
     system.out.println("从(ucs2)编码 " + bytestohexstr(b) + " 重新转换为字串: " + str);
     system.out.println("");

     b = str.getbytes("ascii");
     system.out.println(str + " -(ascii)编码: " + bytestohexstr(b));
     system.out.println("");
   }
   catch(exception e){}
  }

  private string bytestohexstr(byte[] b)
  {
   if (b == null) return "";
   stringbuffer strbuffer = new stringbuffer(b.length * 3);
   for(int i = 0; i < b.length; i++)
   &#123;
     strbuffer.append(integer.tohexstring(b & 0xff));
    
strbuffer.append(" ");
   &#125;
   return strbuffer.tostring();
  &#125;

&#125;

运行此小程序的输出结果是:


测试信息abc123 -(gbk)编码: b2 e2 ca d4 d0 c5 cf a2 61 62 63 31 32 33

从gbk编码 b2 e2 ca d4 d0 c5 cf a2 61 62 63 31 32 33 重新转换为字串: 测试信息abc123

测试信息abc123 -(ucs2)编码: 6d 4b 8b d5 4f e1 60 6f 0 61 0 62 0 63 0 31 0 32 0 33

从(ucs2)编码 6d 4b 8b d5 4f e1 60 6f 0 61 0 62 0 63 0 31 0 32 0 33 重新转换为字串: 测试信息abc123

测试信息abc123 -(ascii)编码: 3f 3f 3f 3f 61 62 63 31 32 33


 这段时间都在做联通的sp网关程序,原来我是做web应用的,对数据库之类的java编程比较熟悉。原来也从来没有接触过短信网关方面的系统设计和编程。在这个过程中碰到了几个比较棘手的问题,ucs2的转码就是其中一个。
 刚开始我们公司的业务没有涉及到中文信息,所以没有注意这个问题,用户只需要发送字母和数字就可以了,但是最近几天我在数据库中发现了一些乱码,messagecoding=8,我猜测可能和用户手机的输入法有关系,即使是阿拉伯数字也有双字节的,比如“8”和“8”。
 下面这段代码是底层的api:
 .........(read bytes from input)
  //获取消息编码
 messagecoding = bodybytes[44];
  //获取短消息内容的长度
  sgip_command.bytescopy(bodybytes, abyte0, 45, 48, 0);
  messagelength = sgip_command.bytes4toint(abyte0);
  //创建一个内容长度的byte
  messagebyte = new byte[messagelength];
  //将message copy 到 messagebyte 中
  sgip_command.bytescopy(bodybytes, messagebyte, 49, (49 + messagelength) - 1,0);
  //开始解码转换
  if(messagecoding==8)&#123;//如果编码格式为ucs2,就转换成普通的string
   try &#123;
       messagecontent = new string(messagebyte,"unicodebigunmarked");
   &#125; catch (unsupportedencodingexception e) &#123;
   &#125;
   &#125;else&#123;
      messagecontent = new string(messagebyte);
   &#125;
  实际上在java中就只需要一句messagecontent = new string(messagebyte,"unicodebigunmarked");就可以转换过来,再保存到数据库中就不会是乱码了。
 进行转换后,我还用了另外一个函数把类似“8”这样的gbk编码的阿拉伯数字都转换成了ascii的数字。这样对业务逻辑有帮助。
 还有一点要说明一下,gb2312是一个比较早版本的中文编码格式,gbk是新的中文编码格式,gbk是gb2312的超集,gb2312是gbk的真子集。
 我的底层api是使用的英斯克的底层api,不过我修改了英斯克的api几个不完善的地方。希望对碰到和我一样问题的同志有点帮助。


 


关键字 本文所属关键字

相关 与本文相关文章

分类 所有文章关键字导航

源码编程相关

Java   Asp   PHP   .Net   XML   C/C++   CGI   VB   Jsp   J2ee   J2se   J2me   EJB   Servlet   Tomcat   Resin   Struts   Weblogic   Eclipse   ANT   GUI   JMS   Web servise   IDEA   Webphere   Hibernate   Spring   Jboss   Applet   Swing   Socket   Javamail   Perl   Ajax   P2P   安全   模式   框架   测试   开源   游戏

SQL数据库相关

My-SQL   Ms-SQL   Access   DB2   Oracle   Sybase   SQLserver   索引   存储过程   加密   数据库   分页   视图  

手机无线相关

3G   Wap   CDMA   GRPS   GSM   IVR   彩信   短信   无线   增值业务

网页设计制作相关

HTML   CSS   网页配色   网页特效   Javascript   VBscript   Dreamweaver   Frontpage   JS   Web   网站设计

网站建设推广相关

建站经验   网站优化   网站排名   推广   Alexa

操作系统/服务器相关

Windows XP   Windows 2000   Windows 2003   Windows Me   Windows 9.x   Linux   UNIX   注册表   操作系统   服务器   应用服务器

图形图像多媒体相关

Photoshop   Fireworks   Flash   Coreldraw   Illustrator   Freehand   Photoimpact   多媒体   图形图像

标准 网站致力的规范

Valid CSS!

无不良内容,无不良广告,无恶意代码

Valid XHTML 1.0 Transitional

creativecommons