gb2312和utf8用哪個(gè) 如何區(qū)分給定的字符串是UTF8還是GB2312?
如何區(qū)分給定的字符串是UTF8還是GB2312?例如,utf8的兩個(gè)字符:e5a6a4e5a6a9對(duì)應(yīng)于GB2312的三個(gè)字符:e5a6a4e5a6a9。雖然對(duì)應(yīng)的漢字不同,但都是有效漢字。所以嚴(yán)格地
如何區(qū)分給定的字符串是UTF8還是GB2312?
例如,utf8的兩個(gè)字符:e5a6a4e5a6a9對(duì)應(yīng)于GB2312的三個(gè)字符:e5a6a4e5a6a9。雖然對(duì)應(yīng)的漢字不同,但都是有效漢字。所以嚴(yán)格地說(shuō),是不可能判斷的。但是,從utf8編碼規(guī)則來(lái)看,有幾種固定的字符串組合:110xxxxx、10xxxxxx、10xxxxxxxx1110xxxxx、10xxxxxx、10xxxxxx、10xxxxxx、10xxxxxx、10xxxxxx等,如果滿足這個(gè)條件,可以說(shuō)“utf8進(jìn)行字符串編碼的可能性非常大”。