- 谈注册中文域名的简体和繁体问题
- 2008年06月10日 作者: 来源:www.it.com.cn 阅读:[]
今天早上看到一条新闻,说是某公司负责人在新网那里查询到一个叫“广告.com”的中文顶级域名,然后交钱进行注册,但是随后新网通知该用户“中文域名无论简体或繁体只能注册一个,而www.广告.com的中文繁体域名早在2000年就被人注册了”,因此无法进行注册,导致该公司遭受损失。
关于这则新闻里面新网和某公司的恩恩怨怨是是非非倒不是我们今天要分析的,我们主要是想借这件事跟广大读者们说一说中文域名注册中的简体和繁体问题。
大家都知道,我国港澳台地区一直习惯使用繁体中文,而大陆地区则使用简体中文,两者的编码也不同,简体中文是GB2312,而繁体中文是GBK,GBK的字符数量要远远在于GB2312,因此有时候内陆地区的输入法也会使用GBK字符集进行一些非常见字符的输入,当然,这些都是题外话了,其它主要就是想说明一个问题,当你输入“中国”这个词进行查询时,你自己都不知道自己是用的GB2312还是用的GBK字符库,因为GBK字符库不仅可以输入“中国”,还能输入“中國”,而GB2312当然就只能输入“中国”。另外,GB2312的“中国”跟GBK的“中国”其实在机器主面来说处理的编码是相同的,我这么说大家可能会比较头晕,所以还是给一段标准注释吧:
GB2312编码&GBK等编码的区别:
GB2312编码大约包含6000多汉字(不包括特殊字符),编码范围为第一位b0-f7,第二位编码范围为a1-fe(第一位为cf时,第二位为a1-d3),计算一下汉字个数为6762个汉字。当然还有其他的字符。包括控制键和其他字符大约7573个字符编码gbk编码是对GB2312编码的扩充,容纳的汉字更多,但仅仅是扩充,没有质的变化。保留了所有GB2312编码,在此基础上进行编码范围的扩充。容纳(包含特殊字符)共22014个字符编码.gb18030编码是在gbk编码基础上的扩充,因为汉字更多,仅仅使用两位编码已经不能容纳要求的汉字,所以采用了2位混和的办法,可以支持更多的汉字编码。并且保留了原有的gbk 2字节编码兼容G B2312和gbk编码的文件。大概容纳55657个编码(包含特殊字符)unicode编码(也就是UTF编码):俗称万国码,致力于使用统一的编码准则表达各国的文字。为表达更多的文字,utf-8采用2/3混编的方式。目前容纳的汉字范围小于gbk编码。并且以3字节的方式处理中文,带来了兼容性的问题,原有的gbk,GB2312,gb18030编码文件都不能正常的处理,还有很长的路要走。
