欢迎访问 水平网    今天是:2017年11月22日 注册 | 登录 | 订阅 | 收藏
推荐文章
热点文章
专题
JQuery框架
Prototype.js
HTML5

Gray码及其应用

控制台上有四个开关和一个按钮,每个开关都可以扳到ON和OFF中的一个,按钮上用粗体写着OPEN。只有当四个开关的ON/OFF状态处于某个唯一的正确组合时,按动按钮之后才能打开密室的大门(但你不知道这个正确 的组合是什么)。你需要做的事情很明确:不断扳动开关,尝试各种各样的ON/OFF组合,然后按动按钮,直到成功把门打开为止。为了以最快的速度逃脱密室,你打算怎么办?  一个游戏引发的思考几年前,我玩过一个第三人称冒险游戏,游戏的名字已经不记得了,唯一印象深刻的就是上面这个场景。为了避免自己忘记哪些组合已经试过,我们只需要按照某种规律逐一尝试所有的组合就行了。比方说,用数字0来表示OFF状态,用数字...
类别:其它 - 字符编码,阅读:615,更新:2014-06-29

UTF-8,GBK,GB2312编码规则与检测

UTF8 是兼容 ascii 的,所以 0~127 就和 ascii 完全一致了。gbk 的第一字节是高位为 1 的,第 2 字节可能高位为 0 。这种情况一定是 gbk ,因为 UTF8 对 >127 的编码一定每个字节高位为 1 。另外,对于中文,UTF8 一定编码成 3 字节。(似乎亚洲文字都是,UTF8 中双字节好象只用于西方字符集),所以型如 110***** 10****** 的,我们一概看成 gbk/gb2312 编码。这就解决了“位”的问题。汉字以及汉字标点(包括日文汉字等),在 UTF8 中一定被编码成:1110**** 10****** 10******连续汉字数量不是 3 的倍数的 gb2312 编码的汉字字符串一定不会被误认为 UTF8 。用了一些gbk 扩展字,或是插入了一些 ascii 符号的字...
类别:其它 - 字符编码,阅读:758,更新:2014-06-06

每天上亿pv的网站,数据库怎么处理?

说是支持1亿pv/天,也许有点夸张,也是为了吸引您能点进来,如果您能认真看完相信也不会让您失望,当然,肯定有很多“高手”会对此会嗤之以鼻,没关系,有很多眼高手低的人总喜欢评论别人却从不会看清自己。 如果大家真想支持我、支持中国人开源项目,请把该文贴到自己的博客中或者收藏本文,记得包含文档的下载地址!!!!!!!谢谢。 我说的系统主要是构建在hibernate之上的高效数据库缓存系统,其中包含了分布式解决方案,该系统已经应用在舍得网上了,没有发现大问题,本人也相信该系统已经足够强大,应付数百万IP/天的应用都不是问题,我这么说肯定有人会对此表示怀疑,其实系统到底能撑多少IP/天不在于系统本身而是在于使用...
类别:其它 - 字符编码,阅读:740,更新:2014-06-01

unicode与utf8编码的转换算法

Ansi,UTF8,Unicode,ASCII编码1. ASCII和Ansi编码 字符内码(charcter code)指的是用来代表字符的内码.读者在输入和存储文档时都要使用内码,内码分为 单字节内码 -- Single-Byte character sets (SBCS),可以支持256个字符编码. 双字节内码 -- Double-Byte character sets)(DBCS),可以支持65000个字符编码. 前者即为ASCII编码,后者对应ANSI. 至于简体中文编码GB2312,实际上它是ANSI的一个代码页9362. Unicode unicode 是一种编码表格,例如,给一个汉字规定一个代码。类似 GB2312-1980, GB18030等,只不过字集不同。 一个unicode码可能转成长度为一个BYTE,或两个,三个,四个BYTE的UTF...
类别:其它 - 字符编码,阅读:489,更新:2014-06-01

UTF-8编码里边的no BOM和BOM

UTF-8 编码的文件可以分为no BOM 和 BOM两种格式何谓BOM? "EF BB BF" 这三个字节就叫BOM,BOM的全称叫做"Byte Order Mard".在utf-8文件中常用BOM来表明这个文件是UTF-8文件,而BOM的本意实在utf16中用来表示高低字节序列的。在字节流之前有BOM表示采用低字节序列(低字节在前面),而utf8不用考虑字节序列,所以其实有无BOM都可以。微软的记事本 Word 等只能正确打开含BOM的UTF8文件,然后UltraEdit却恰恰相反,回把BOMutf8文件 误认为ascii编码。UTF-8的BOM是EFBBBF,因为UE载入UTF-8文件会转成Utf16,上述的EFBBBF 在Utf16中是FFFE...
类别:其它 - 字符编码,阅读:592,更新:2014-06-01

UTF-8字符集的基础知识

字符集简史在所有字符集中,最知名可能要数被称为ASCII的7位字符集了。它是美国信息交换标准委员会(American Standards Committee for Information Interchange)的缩写, 为美国英语通信所设计。它由128个字符组成,包括大小写字母、数字0-9、标点符号、非打印字符(换行符、制表符等4个)以及控制字符(退格、响铃等)组成。 但是,由于他是针对英语设计的,当处理带有音调标号(形如汉语的拼音)的欧洲文字时就会出现问题。因此,创建出了一些包括255个字符的由ASCII扩展的字符集。其中有一种通常被成为IBM字符集,它把值为128-255之间的字符用于画图和画线,以及一些特殊的欧洲字符。另一种8位字符集是ISO 8859-1 Lati...
类别:其它 - 字符编码,阅读:484,更新:2014-06-01

MFC下Unicode到UTF-8格式的转换

UNICODE 通过用双字节来表示一个字符,从而在更大范围内将数字代码映射到多种语言的字符集。MFC 以宏的形式提供了将一般文本转换成 UNICODE 数据类型的途径。开发人员只需要稍微改变一下编写代码的习惯便可以轻松编写支持 UNICODE 的应用。定义部分:通用 多字节 宽字节_TCHAR/TCHAR char wchar_t_T 或_TEXT char 常量字符串 wchar_t 常量字符串 LLPTSTR char *(或win32下LPSTR) wchar_t *LPCTSTR const char * LPCSTR const wchar_t * 通用形式就是自动的判断当前是否定义了_UNICODE字符集,例 如果是的话typedef wchar_t TCHAR;不是的话typedef char TCHA...
类别:其它 - 字符编码,阅读:669,更新:2014-05-09

URL编码方法的比较

javascript中存在几种对URL字符串进行编码的方法:escape(),encodeURI(),以及encodeURIComponent()。这几种编码所起的作用各不相同。escape() 方法:采用ISO Latin字符集对指定的字符串进行编码。所有的空格符、标点符号、特殊字符以及其他非ASCII字符都将被转化成%xx格式的字符编码(xx等于该字符在字符集表里面的编码的16进制数字)。比如,空格符对应的编码是%20。不会被此方法编码的字符: @ * / +encodeURI() 方法:把URI字符串采用UTF-8编码格式转化成escape格式的字符串。不会被此方法编码的字符:! @ # $& * ( ) = : / ; ? + 'encodeURIComponent() 方法:把URI字符串采用UTF-8编码格式转化...
类别:其它 - 字符编码,阅读:394,更新:2014-05-09

UUID和GUID

uuid和guid都是全球唯一标识符的说法,guid看起来并不是国际标准,所以,uuid实际上是更加通用的说法。uuid和guid都是16个字节(128位的)。故这里只谈论uuid。 首先,建议大家看看:http://www.answers.com/topic/uuid?cat=technology,然后看看:http://www.answers.com/topic/uuid?cat=technology。前者是说uuid的,后者是说guid的。之所以要2个都看是因为uuid里面的说明没有说明完整,而guid里面的说明可以对它进行适当的补充。 总而言之,uuid的形式是:4-2-2-2-6,共4+2+2+2+6=16个字节。比如,550e8400-e29b-41d4-a716-446655440000 。其中,第3部分的第一个字节(即总体上的第7个字节)的高4位用来表示uuid的version类型。version表明了u...
类别:其它 - 字符编码,阅读:403,更新:2014-05-09

Ansi,UTF8,Unicode,ASCII

1. ASCII和Ansi编码字符内码(charcter code)指的是用来代表字符的内码.读者在输入和存储文档时都要使用内码,内码分为 单字节内码 -- Single-Byte character sets (SBCS),可以支持256个字符编码. 双字节内码 -- Double-Byte character sets)(DBCS),可以支持65000个字符编码.前者即为ASCII编码,后者对应ANSI.至于简体中文编码GB2312,实际上它是ANSI的一个代码页9362. Unicode 如上,ANSI有很多代码页,使用不同代码页的内码无法在其他代码也正常显示,这就是为什么日文版/繁体中文版游戏无法在简体中文平台直接显示的原因.Unicode也是一种字符编码方法,不过它是由国际组织设计,可以容纳全世界所有语...
类别:其它 - 字符编码,阅读:376,更新:2014-05-09

ansi到unicode的转换算法

普及一下: 字符必须编码后才能被计算机处理。计算机使用的缺省编码方式就是计算机的内码。早期的计算机使用7位的ASCII编码,为了处理汉字,程序员设计了用于简体中文的GB2312和用于繁体中文的big5。 Unicode也是一种字符编码方法,不过它是由国际组织设计,可以容纳全世界所有语言文字的编码方案。Unicode的学名是"Universal Multiple-Octet Coded Character Set",简称为UCS。UCS可以看作是"Unicode Character Set"的缩写。 如果要转换的话,就要涉及到具体的字符编码方式的问题了。比如GB2312和用于繁体中文的big5。转换到UNICODE方法就不一样。 同时UNICODE有两种格式:UCS-...
类别:其它 - 字符编码,阅读:582,更新:2014-05-09

GB2312编码

GB2312或GB2312-80是一个简体中文字符集的中国国家标准,全称为《信息交换用汉字编码字符集--基本集》,由中国国家标准总局发布,1981年5月1日实施。GB2312编码通行于大陆;新加坡等地也采用此编码。几乎所有的中文系统和国际化的软件都支持GB2312。GB2312标准共收录6763个汉字,其中一级汉字3755个,二级汉字3008个;同时,GB2312收录了包括拉丁字母、希腊字母、日文平假名及片假名字母、俄罗斯语西里尔字母在内的682个全形字符。GB2312的出现,基本满足了汉字的计算机处理需要,它所收录的汉字已经覆盖99.75%的使用频率。对于人名、古汉语等方面出现的罕用字,GB2312不能处理,这导致了后来GBK及GB18030汉字字符集的出现。...
类别:其它 - 字符编码,阅读:423,更新:2014-05-09