四.“五笔字型”的编码规则
五笔字型将成千上万个汉字首先分成两大类:键面上有的“键面字”和键面上没有的“键外字”。两类汉字的取码法按以下流程分别取码:
(一).“键面字”(又称单结构汉字)的输入法:是指构成汉字的字根只有一个。它包括键名字、成字字根、单笔画和补码码元的输入。
1.键名输入:每个键上的第一个字根,即“助记词”中打头的那个字根称为“键名”,其输入方法是:把所在的键连打四下(3+空格键)。
例: 王:11 11 11(GGG);
目:21 21 21(HHH);
禾:31 31 31;(TTT);
言:41 41 41(YYY);
2.成字字根输入:键面上除键名外,凡本身是汉字的码元,叫“成字字根”或“成字码元”。成字字根一共有97个(其中包括相当于汉字的“氵、亻、勹、刂”等)。
成字字根的输入法:先打一下它所在的键(称为“报户口”),再根据“字根拆成单笔画”的原则,打它的第一个单笔画,第二个单笔画以及最后一个单笔画,最多4键。不足4键时,补一个空格键,例:文:丶 丶 一 丶。
例如:当输入十、七、九、二、几、儿、乃、刀…,这一类只有2个笔画的字根时,不足4码,笔画打完,要再补打一下“空格键”表示结束。
成 字 字 根 输 入 简 表
3.单笔画输入:其实5种笔画“一、丨、丿、丶、乙,在国家标准中都是作为汉字对待的。在“五笔字型”中,除“一”之外,其他几个都很不常用,按“成字字根”的打法,它们的编码只有2码,这么简短的“码”用于如此不常用的字,真是太可惜了!于是,将其简短的编码让位给更常用的字,却人为的在其正常码的后边,加两个“L”作为5个单笔画的编码。
例:一:GGLL。丶:YYLL。
应当说明,“一”是一个极为常用的字,每次都打4下,岂不慢事?别担心,“一”还有一个“高频字”码可用。即打一个G,再打一下空格便可输入。
4.补码码元及其输入
在字根表中,用方框“框住”的3个字根,是“补码码元”,它们作为字根参与编码时,像姓氏中的复姓诸葛、司马一样,要编2个码:“主码(即码元所在键位)+补码(规定取该码元最后的笔画结构)。
注:表中带圆圈的笔画,“补码”的笔画表现形式,作为一个符号,用以提示编码。
(二).“键外字”的输入法:
凡是“字根总表”上没有的字,即“键外字”,都可以认为是由表内两个或两个以上字根(码元)拼合而成的,故又称之为:“合体字”、“多元字”或“复结构汉字”,对于“多元字”,按照前述汉字分解的总原则“汉字拆成字根”,将一切“合体字”拆成若干个字根。
合体字的折分共有以下5项原则:
1.书写顺序:拆分合体字时,一定要按照正确的汉字书写顺序(笔顺)进行,将其拆为基本字根。一般从左到右,从上到下,从外到内。
例:伙=亻+火 (顺序正确)
伙=火+亻 (顺序错误)
例:宁=宀+丁 (顺序正确)
宁=丁+宀 (顺序错误)
例:新=立+木+斤(顺序正确)
新=立+斤+木(顺序错误)
例:中=口+丨 (顺序正确)
中=丨+口 (顺序错误)
例:夷=一+弓+人(顺序正确)
夷=大+弓 (顺序错误)
2.取大优先:取大优先也叫优先取大,按书写顺序拆分汉字时,应以“再添一个笔画便不能成为字根”为限,每次都拆取一个尽可能笔画多的字根。
例: 则=冂+人+刂 (错误),
则=贝+刂 (正确)。
第一种拆分明显是错误的,“人”可以添到前面的“冂”上,凑成更多笔画的“贝”字。
例: 世=凵+乙(错误)
世=廿+乙(正确)
显然,前者是错误的,因为第二个字根“凵”完全可以向前“凑”到“一”上,形成一个“更大”的已知字根“廿”。
总之,“取大优先”俗称“尽量往前凑”,要凑成字根表中笔画更多(更大)的一个字根!是一个在汉字拆分中最常用的基本原则,至于什么才算“大”,“大”到什么程度才到“边”,应以“再添一个笔画,便不能构成字根(码元)了”为限度。
3.兼顾直观:在拆分汉字时,为了照顾汉字字根的完整性,有时不得不暂且牺牲一下“书写顺序”和“取大优先”的原则,形成个别例外情况。
例:国:按“书写顺序”应拆成“冂、王、丶、一”。
但这样破坏了汉字构造的直观性,故只好违背“书写顺序”,拆成“囗、王、丶”了。
例:自:按“取大优先”应拆成:“亻、乙、三”。
但这样不仅不直观,而且也有悖于“自”字的字源(这个字的字源是“一个手指指着鼻子”)。故只能拆作“丿、目”,这叫做“兼顾直观”。
4.能连不交:看以下拆分实例:
天=一+大 (正确,“一”与“大”是相连接的关系,比较直观)。
天=二+人 (错误,“二”与“人”交叉在一起了)。
于=一+十 (正确,二者是相连的关系)。
于=二+丨 (错误,二者是相交的关系)。
当一个字既可拆成相连的几个部分,也可拆成几个相交的部分时,“五笔字型”里这样规定:“相连”的拆法是正确的。因为一般来说,“连”比“交”更为“直观”,更能显现字根(码元)的笔画结构特征,更易于辩认。连结构中还有一个特殊的规定:带点结构的字,不管孤立的点和基本字根有无距离,均视为连结构汉字。如:术、义、勺、头、斗、太等。
5.能散不连:
①. 笔画和字根之间,字根与字根之间的关系,可以分为“散”、“连”和“交”的三种关系。
如:倡:三个字根之间是“散”的关系;
自:首笔“丿”与“目”之间是“连”的关系;
夷:“一”、“弓”与“人”是“交”的关系。
②. 字根之间的关系,决定了汉字的字型(上下、左右、杂合)。
❶.几个字根都“交”“连”在一起,如“夷”“丙”等,便肯定是“杂合型”属于“3型字”,不会有争议,而“散”结构字必定是“1型字”或“2型字”。
❷.值得注意的是,有时一个汉字被拆成的几个部分,都是复笔字根(不是单笔画),它们之间的关系,在“散”和“连”之间模棱两可。
如:占:卜 口,两者按“连”处理,“占”便是“杂合型”(3型字)。两者按“散”处理,“占”便是“上下型”(2型字 正确)。
矢:、大,两个码元按“连”处理,“矢”便是“杂合型”(3型字);两个码元如果按“散”处理,“矢”便是上下型(2型字 正确)。
午:、十,两个字根,可视为散,也可当作连。
当遇到这种既能“散”又能“连”的情况时,按规定,只要不是单笔画,一律按“能散不连”判别之,即优先确定为“散”的关系。因此,以上例中的占、严、矢、午、羊都被认定是“上下型”字(2型字)。
(三).四根字(四元字)及多根字(多元字)的取码原则:四根字及多根字(或多元字)的取码原则:四根字是指刚好由四个字根构成的字,其取码方法是依照书写顺序把四个字根取完(依次取根)。所谓多根字,是指按照规定拆分之后,总数多于4个字根的字,这种字,不管拆出了几个字根,只按顺序取其第一、二、三及最末一个字根,俗称“一二三末(或前三末一)”,共取四个码。
如:照:日、刀、口、灬, (JVKO)。
重:丿、一、日、土, (TGJF)
戆:立、日、十、心, (UJFN)。
暨:彐、厶、匚、一, (VCAG)
樊:木、乂、乂、大, (SRRD)
五. 关于简码、重码、末笔识别码和容错码
1. 简码:为了减少击键次数,提高输入速度一些比较常用的字,除按其“全码”可以输入外,多数都可以只取其前边的一至三个字根,再加空格键输入,即只取其全码的最前边的一个、二个或三个字根(码元)输入,从而形成所谓一、二、三级简码。1码对应一个字母,2码对应两个字母。那些按一个字母键就在第一项的字,就是一级简码;按两个字母就在第一项的字,就是二级简码(这相当于给比较常用的汉字设置一个绿色通道)。
❶.一级简码”(又称“高频字”):将各键打一下,再打一下空格键,即可打出25个最常用的汉字(每键一个):
一地在要工,上是中国同,和的有人我,主产不为这,民了发以经。
如:一:11G 要:14S 的:32R 和31
❷.二级简码:只输入“全码”的前2个码+空格键。
化=亻(W)+匕(X)+空格
信=亻(W)+言(Y)+空格
李=木(S)+子(B)+空格
张=弓(X)+长(A)+空格
❸.三级简码:只输入“全码”的前3个码+空格键。
华=亻、匕、十(WXF)+空格
想=木、目、心(SHV)+空格
陈=阝、七、小(BAI)+ 空格
得=彳、曰、一(TJG)+ 空格
注意:有时,同一个汉字可有几种简码。如“经”,就同时有一、二、三级简码及全码四个输入码。
2. 重码及末笔识别码:
①.“重码”是几个“五笔字型”编码完全相同的字造成的,我们在打拼音输入汉字时会有这种情况:打完拼音,选字框中出来一堆字(重码),你要去手选。那么,在五笔会不会也有这种情况呢?有!汉字编码输入法完美的设计,就是要尽量减少重码,以提高输入速度,但以下两种情形能看到,仅仅输入字根,很容易产生重码。
❶.因构字的字根相同,字型不同引起重码:
叭:口、八 (23 34 KW)
只:口、八 (23 34 KW)
键位相同,编码中丢失了字型信息,才产生了重码。
❷.因几个字根同一键位引起重码:
沐:氵、木 (43 14 IS)
汀:氵、丁 (43 14 IS)
洒:氵、西 (43 14 IS)
编码中没有将“木、丁、西”加以区分,才产生了重码。
以上两类例子可知,当遇到2~3个字根构成的汉字时,为了避免编码相同(重码),既有必要提取“字型信息”,又有必要从字根上“提取笔画特征信息”用于编码。复合这两种信息的一个附加码,就是“末笔识别码”,简称“识别码”,“识别码”只追加在由2~3个字根构成的汉字编码中。
②.“末笔识别码”组成:它是由汉字的末笔笔画(一、丨、丿、丶、乙)和字型(左右、上下、杂合)组成的一个附加码。在输入“不足四个字根”的汉字时,输入完所有字根之后,如果该字不在输入法候选框中,则需要在最后输入末笔识别码。
末笔识别码的判断方法:使用末笔识别码的思路:先看字的最后一笔,再看结构。将汉字的末笔代码作为区号,将汉字的字型作为位号,该区号和位号组成的区位码对应的“按键”,就是就是该汉字的末笔识别码。
❶ .“1型”字(左右型字)的“识别码”:
对于1型(左右型)字,字根打完之后,补打一个末笔画,即等同于加了“末笔识别码”,用“一、丨、丿、丶、乙”表示。
例:沐:氵、木, 丶为末笔,补一个“丶”;
汀:氵、丁,亅为末笔,补一个“丨”;
酒:氵、西、一,一为末笔,补一个“一”
❷.“2型”字(上下型字)的“识别码”:
对于2型(上下型)字,码元输入完之后,补打“一个末笔画”,就等同于添加了“识别码”,用“二、刂、⺁、冬字下两点、巜”来表示。
例: 字:宀、子,补打一个“二”;
华:亻、匕、十,补打一个“刂”;
❸.“3型”字(杂合型字)的“识别码”:
对于3型(杂合型)字,码元输完之后,补打一个“末笔画”就等同于添加了“识别码”,用“三、川、彡、氵、巛表示。
例: 同:冂、一、口、补打一个“三”;
远:二、儿、辶,补充打一个“巛”;
末笔画
左右型
上下型
杂合型
一(横)
11 G 一
12 F 二
13 D三
丨(竖)
21 H 丨
22 J刂
23 K川
丿(撇)
31 T 丿
32 R ⺁
33 E彡
丶(捺)
41 Y 丶
42 U
43 I氵
乙(折)
51 N 乙
52 B巜
53 V巛
③. 末笔识别码的特殊约定:
凡是“包围型”的字,如全包围结构的“国、团”等,半包围的“这、庆”等,偏旁为“辶”、“廴”的汉字,均以被包围的那个部分的“最后一笔”,作为“末笔识别码”,如“远”字,要以被包围的“儿”的末笔来构成“识别码”(53 V)。“廷”,以“一”为末笔,末笔识别码为(13 D)。
3. 容错码:容错码:容错码有两个含义:其一是你容易搞错的码;其二是容许你搞错的码。“容易”弄错的码,容许你按错着打,谓之“容错码”。“五笔字型”中的“容错码”目前将近有1000个,使用者还可以自己再建立。“容错码”主要有以下两种类型:
⑴.拆分容错:个别汉字的书写顺序因人而异,因而容易弄错。
如:长:丿、七、丶 (正确码)
长:七、丿 (容错码)
秉:丿、一、彐、小(正确码)
秉:禾、彐、小 (容错码)
⑵.字型容错:个别汉字的字型不易确定者。
如:亏:二、乙、巛(正确码)
亏:二、乙、巜(容错码)
六. 万能Z键
输入汉字时,如果一时不知道某些字的编码,便可以使用“万能Z键”来代替那个不知道的码,Z键的用途主要分以下三种情况:
❶ 当不知道某个字的拆分时,Z键代替不知道的字根。
如:键:(qzzp) 钅、Z、Z、廴
❷ 当不知道字根在哪个键位上时,Z代替。
如:论:(ywz) 讠、人、Z
❸当不知道字的“识别码 ”时,亦可用Z代替。
如:花:(awxz)艹、亻、匕、z
万能Z键也叫学习键,一按Z键,提示行便会有比较多的字显示出来,其中也会有你要的那个字,而且,字的后边还有正确码的提示。
七.词汇输入
在字母键上,打4个键,不用换档,既能打单字,又能打词汇,字、词之间没有界限,字词兼容。不管多长的词汇,一律只打4下键,单字和词汇可以混合输入,字词之间不用任何换档其他附加操作。
⑴. 二字词
取每个字“全码”的前两个码,共4码。
如: 明天:日、月、一、大 22、33、11、13(JEGD)
计划:讠、十、戈、刂 41、12、15、22(YFAJ)。
⑵. 三字词
前两个字各取第一个码,最后一字前两个码,共4码。
如:电视机:日、礻、木、几 22、45、14、34(JPSW)。
电风扇:日、几、丶、尸 21、34、41、51(JWYN)。
⑶. 四字或以上词
对于4个字或超过4个字的词,取第一、二、三及最后一个汉字的第一码(即一二三末),共4码。
如:中华人民共和国:口、亻、人、囗 23、34、34、24(KWWL)。
新疆维吾尔自治区:立、弓、纟、匚 32、55、55、15(UXXA)。
———END———
限 时 特 惠: 本站每日持续更新海量各大内部创业教程,永久会员只需109元,全站资源免费下载 点击查看详情
站 长 微 信: nanadh666