Big5,又称为大五码或五大码,是使用繁体中文(正体中文)社区中最常用的电脑汉字字元集标准,共收录13,060个汉字。
基本介绍
中文名:大五码外文名:Big5别称:五大码属性:繁体字编码方案 简介,历史及名称,位元组结构,冲码问题,私人造字区,发展,输入 ... ,参看,简介
Big5,又称为大五码或五大码,是使用繁体中文(正体中文)社区中最常用的电脑汉字字元集标准,共收录13,060个汉字。 中文码分为内码及交换码两类,Big5属中文内码,知名的中文交换码有CCCII、CNS11643。 Big5虽普及于台湾省、香港与澳门等繁体中文通行区,但长期以来并非当地的国家/地区标准或官方标准,而只是业界标准。倚天中文系统、Windows繁体中文版等主要系统的字元集都是以Big5为基准,但厂商又各自增加不同的造字与造字区,派生成多种不同版本。 2003年,Big5收录到CNS11643中文标准交换码的附录当中,获取了较正式的地位。这个最新版本称为Big5-2003。历史及名称
“大五码”(Big5)是由台湾省财团法人信息产业策进会为五大中文套装软体所设计的中文共通内码,在1983年12月完成公告,隔年3月,信息产业策进会与台湾省13家厂商签定“16位个人电脑套装软体合作开发(BIG-5)项目(五大中文套装软体)”,因为此中文内码是为台湾省自行 ... 开发之“五大中文套装软体”所设计的,所以就称为Big5中文内码。五大中文套装软体虽然并没有如预期的取代国外的套装软体,但随着采用Big5码的国乔中文系统及倚天中文系统先后在台湾省市场获得成功,使得Big5码深远地影响繁体中文电脑内码,直至今日。“五大码”的英文名称“Big5”后来被人按英文字序译回中文,以致现在有“五大码”和“大五码”两个中文名称。 Big5码的产生,是因为当时个人电脑没有共通的内码,导致厂商推出的中文套用软体无法推广,并且与IBM 5550、王安码等内码,彼此不能兼容;另一方面,台湾省当时尚未推出中文编码标准。在这样的时空背景下,为了使台湾省早日进入资讯时代,所采行的一个项目;同时,这个项目对于以台湾省为核心的亚洲繁体汉字圈也产生了久远的影响。 Big5产生前,研发中文电脑的朱邦复认为内码字集应该广纳所有的正异体字,以顾及如户政等套用上的需要,故在当时的内码会议中,建议希望采用他的五万多字的字型档。工程师认为虽其技术可行,但是三个位元组(超过两个位元组)长度的内码却会造成英文显示屏画面映射成中文画面会发生文字无法对齐的问题,因为当时盛行之倚天中文系统画面系以两个位元组文字宽度映射成一个中文字图样,英文软体中只要以两个英文字宽度去显示一个中文字,画面就不会乱掉,造成中文系统业者偏爱二个位元组长度的内码;此外以仓颉输入码压缩成的内码不具排序等功能,因此未被采用。1983年有人诬指朱邦复为 ... ,其研究成果更不可能获采用。 在Big5码诞生后,大部分台湾省的电脑软体都使用了Big5码,加上后来倚天中文系统的高度普及,使后来的微软Windows 3.x等亦予以采用。虽然后来台湾省还有各种想要取代Big5码,像是倚天中文系统所推行的倚天码、台北市电脑公会所推动的公会码等,但是由于Big5字码已沿用多年,因此在习惯不易改变的情况下,始终无法成为主流字码。而台湾省后来发展的国家标准CNS 11643中文标准交换码由于非一般的内码系统,是以交换使用为目的,受先天所限,必须使用至少三个位元组来表示一个汉字,所以普及率远远不及Big5码。 在1990年代初期,当中国大陆的电子邮件和转码软体还未普遍之时,在深圳的港商和台商公司亦曾经使用Big5系统,以方便与总部的档案交流、以及避免为大陆的办公室再写一套不同内码的系统。使用简体中文的社区,最常用的是GB 2312、GBK及其后续的国标码(GB 18030)。 除了台湾省外,其他使用繁体汉字的地区,如香港(香港增补字元集)、澳门(澳门增补字元集),及使用繁体汉字的海外华人,都曾普遍使用Big5码做为中文内码及交换码。位元组结构
Big5码是一套双位元组字元集,使用了双八码存储 ... ,以两个位元组来安放一个字。第一个位元组称为“高位位元组”,第二个位元组称为“低位位元组”。 “高位位元组”使用了0x81-0xFE,“低位位元组”使用了0x40-0x7E,及0xA1-0xFE。在Big5的分区中: 0x8140-0xA0FE 保留给用户自定义字元(造字区) 0xA140-0xA3BF 标点符号、希腊字母及特殊符号,包括在0xA259-0xA261,安放了九个计量用汉字:兙兛兞兝兡兣嗧瓩糎。 0xA3C0-0xA3FE 保留。此区没有开放作造字区用。 0xA440-0xC67E 常用汉字,先按笔划再按部首排序。 0xC6A1-0xC8FE 保留给用户自定义字元(造字区) 0xC940-0xF9D5 次常用汉字,亦是先按笔划再按部首排序。 0xF9D6-0xFEFE 保留给用户自定义字元(造字区) 值得留意的是,Big5重复收录了两个相同的字:“兀、兀”(0xA461[U+5140]及0xC94A[U+FA0C])、“嗀、嗀”(0xDCD1[U+55C0]及0xDDFC[U+FA0D])。此外“十”、“卅”也在符号区又重复了一次,在检索系统中常会造成查询不到字。