unicode字符大全 關(guān)于unicode和ascii的區(qū)別?
關(guān)于unicode和ascii的區(qū)別?計(jì)算機(jī)發(fā)明后,為了在計(jì)算機(jī)中表達(dá)字符,人們開(kāi)發(fā)了一種編碼,稱為ASCII碼。ASCII碼由一個(gè)字節(jié)中的7位表示,范圍從0x00到0x7F,總共128個(gè)字符。然后他
關(guān)于unicode和ascii的區(qū)別?
計(jì)算機(jī)發(fā)明后,為了在計(jì)算機(jī)中表達(dá)字符,人們開(kāi)發(fā)了一種編碼,稱為ASCII碼。ASCII碼由一個(gè)字節(jié)中的7位表示,范圍從0x00到0x7F,總共128個(gè)字符。然后他們突然發(fā)現(xiàn),如果需要以表格形式打印這些字符,就缺少“制表符”。因此,ASCII的定義被擴(kuò)展為使用一個(gè)字節(jié)的所有8位來(lái)表示字符,這被稱為擴(kuò)展ASCII碼。范圍為0x00-0xff,共256個(gè)字符。中國(guó)人用兩個(gè)連續(xù)的擴(kuò)展ASCII區(qū)域(0xa0之后)來(lái)表示一個(gè)漢字。本方法的標(biāo)準(zhǔn)為gb-2312。后來(lái),日本,韓國(guó),阿拉伯,臺(tái)灣傳統(tǒng)(大5)。。。它們都采用相似的方法來(lái)擴(kuò)展局部字符集的定義,現(xiàn)在統(tǒng)一為MBCs字符集(multi-byte character set)。這種方法存在缺陷,因?yàn)椴煌瑖?guó)家和地區(qū)定義的字符集有交集,所以使用gb-2312軟件,不能在Big-5環(huán)境下運(yùn)行(顯示亂碼),反之亦然。為了對(duì)全世界人民的所有字符進(jìn)行編碼,人們建立了Unicode標(biāo)準(zhǔn)字符集。Unicode使用兩個(gè)字節(jié)來(lái)表示一個(gè)字符(unsigned shot int、wcharwcharuut、OLECHAR)。最后,世界上任何一個(gè)地區(qū)的軟件都可以在另一個(gè)地區(qū)運(yùn)行,而無(wú)需修改。雖然我用IE瀏覽日文網(wǎng)站,但它顯示了我不認(rèn)識(shí)的日文字符,但至少不會(huì)被亂碼。Unicode在0x0000-0xffff范圍內(nèi)有6萬(wàn)多個(gè)字符,其中僅漢字就占4萬(wàn)多個(gè)
Unicode是國(guó)際組織制定的字符編碼方案,可以容納世界上所有的字符和符號(hào)。它也分為許多類型。MBCs(多字節(jié)編碼系統(tǒng)):ANSI用英語(yǔ)和其他語(yǔ)言對(duì)字符進(jìn)行編碼所需的字節(jié)數(shù)是不同的,或一個(gè)或兩個(gè)。因此,它被稱為MBCs。多字節(jié)編碼系統(tǒng)覆蓋范圍更廣
MBCs(多字節(jié)字符系統(tǒng))
它是一種編碼類型,而不是一種特定編碼的名稱。
字符庫(kù):ASCII、DBCS、Unicode
所有字符串類都基于C樣式字符串。C樣式的字符串是一個(gè)字符數(shù)組。字符類型有三種編碼格式:
第一種是單字節(jié)字符集或SBCs。在這種編碼格式中,所有字符僅由一個(gè)字節(jié)表示,ASCII碼是單字節(jié)字符。使用“0”表示字節(jié)的結(jié)尾。
第二種編碼格式是多字節(jié)字符集或MBCs。Windows中的MBCs包括兩種字符類型:?jiǎn)巫止?jié)字符和雙字節(jié)字符。因?yàn)閣indows中使用的大多數(shù)多字節(jié)字符都是兩個(gè)字節(jié)長(zhǎng)的,所以MBCs通常被DBCS代替。
第三種編碼格式是Unicode。Unicode是一種編碼模式,其中所有字符都以兩個(gè)字節(jié)編碼。Unicode字符有時(shí)稱為寬字符。
Unicode和MBCs之間的區(qū)別在于,MBCs字符可以編碼為不同長(zhǎng)度的字節(jié)。