mysql自4.1以后,增加了对字符集的支持。笔者之前对mysql比较了解,刚接触4.1时,感觉mysql有点多此一举,但后来细想发现,对字符集的支持,虽然对开发者来说,会麻烦一些,但不可否认,是一种进步。对字符集的支持,不仅更加支持多语言,而且,也方便移植。
刚开始使用mysql4.1,你可能感觉有点不适,下面,简单阐述一下笔者对mysql4.1字符集的理解,再讲述如何php如何适应mysql的这种变化,希望大家看过这文章后,能够有所收获。
如果你对计算机基础知识不了解,请直接阅读“结论篇”
一.原理篇
mysql的字符集里有两个概念,一个是“character set(字符集)”,另一个是“collations”。
1. collations
collations翻成中文是“校验”,在网页开发的过程中,这个词汇,只在mysql里使用,主要作用是指导mysql对字符的比较,比如, ascii字符集里,collations规定了a小于b,a等于a,以及a是否等于a之类的。通常,大家基本可以忽略collations的存在,因为每个字符集都有一个默认的collations,通常,使用默认的collations就可以了。
2.字符集
与这对比的是,字符集是个更广的概念,即使是windows下普通的文本文件,也渗及到字符集的问题。不同的字符集,规定了不同的字符的编码方式。一个 character set (字符集)是一组符号和编码,比如,ascii字符集,包括的字符有:数字,大小写字母,分号、换行之类的符号,编码方式是用一个7bit表示一个字符(a的编码是65,b的编码是98)。ascii只规定了英文字母的编码,非英文语言不能用ascii编码表示,为此,不同的国家,都为自己的语言做了编码,比如,我们国家,就有gb2312编码。但每个国家之间的编码不同,也存在着一些跨平台的问题,为此,一些国际化标准组织,就制定了一些国际通用的编码,最常用的就是utf8了。ascii只对英文符号和英文字母做了编码,gb2312对英文符号,英文字母,汉字做了编码,utf8对世界上所有的语言文字做了编码,所以,gb1212的字符包含了ascii字符,utf8包含了gb2312字符。由此可见,utf8是所含最广字符的字符集,所以,在一些多语言的web系统中,一般用utf8字符集(phpmyadmin使用utf8编码)。
任何文本的存储,都渗及到字符集的概念。包括数据库,也包括普通的文本文件。
主要术语:
字符:汉字,英文字母,标点符号,拉丁文等等。
编码:将字符转换成计算机存储的格式,比如,a用65表示。
字符集:一组字符以及对应的编码方式。
a. mysql的字符集
mysql目前支持多字符集,并且,支持在不同的字符集之间转换(便于移植和支持多语言)。
mysql可以设置服务器级字符集、数据库级字符集、数据表级字符集、表列的字符集,实际上,最终使用字符集的地方是存储字符的列,比如,你设置 table1中col1列是字符类型,col1才用到了字符集,如果table1表的col2列是int类型,col2不使用字符集的概念。
Java Asp PHP .Net XML C/C++ CGI VB Jsp J2ee J2se J2me EJB Servlet Tomcat Resin Struts Weblogic Eclipse ANT GUI JMS Web servise IDEA Webphere Hibernate Spring Jboss Applet Swing Socket Javamail Perl Ajax P2P 安全 模式 框架 测试 开源 游戏
Windows XP Windows 2000 Windows 2003 Windows Me Windows 9.x Linux UNIX 注册表 操作系统 服务器 应用服务器