仓颉输入法/汉字分割
辅助字形 | ◄ | 仓颉输入法 汉字分割 |
► | 基本取码 |
仓颉输入法按照汉字结构特征取码,要清楚了解分割汉字的位置才能取对码。
分割汉字的核心概念是以视觉(而非字义或笔顺)判断汉字能否分割,不能分割者为“整体字”,能分割者为“组合字”[1],并将其分割为“字首”、“字身”二部分;“字身”若还能分割,则按相同方式再分割为“次字首”、“次字身”二部分。[2]分割完后再对各部分分别取码。
组合字
以视觉判断汉字能否分割,能分割者为“组合字”(或称“分体字”)。
字首与字身
组合字可将第一部分分离为“字首”,其余部分则为“字身”。视组合形态不同,大略可分为以下两种分割方式:[3]
基本分割
可纵向或横向“一刀分离”者,其“最左侧”或“最上方”的部分定义为字首。
分类 | 图例 | 字例 |
---|---|---|
左右形 | | |
上下形 | |
延伸分割
一些字典惯用且位置固定的字形,会有一部分向右或向下延伸( ),或以三面、四面包住另一字形( ),为取码方便,亦视为字首。
图例 | 字例 |
---|---|
练习
次字首与次字身
组合字的字身若可分割,则比照分割整个汉字的方法分割为“次字首”与“次字身”。
分类 | 图例 | 字例 |
---|---|---|
字身为左右形 | |
|
字身为上下形 | |
|
字身为延伸形 | |
|
按此,有些字的异体写法,例如“广”末笔向下延伸的长度,会导致不同的分割方式:
基本分割型 | ||
延伸分割型 |
此外,请留意以下初学者常犯的错误:
错误:试图从字首分割出次字首
次字首与次字身是对字身的分割,与字首无关。例如“哲”的字首是“折”、字身是“口”,“口”为连体字不能再分割;若分割成字首“扌”、次字首“斤”、次字身“口”,就属错误。
正确分割 | |||||
错误分割 |
错误:没有在最左侧或最上方分割
初学者分割汉字往往会受“部首”或“常见偏旁”影响,例如把“順”分割成“川”和“頁”。按规则应于最左侧分离出“丿”作为字首,接着将字身于最左侧分离出“丨”作为次字首,最后剩下“ ”为次字身。
先分字首 | ||||||||||
字身再分 | ||||||||||
错误分割 |
采用这种分割规则是为了方便视觉辨识,因为部首是根据“字义”决定,没有固定位置,导致某些汉字难以判断部首所在,例如“鸣”看似“口”部实为“鸟”部。仓颉输入法的设计与过去习惯不一致,但熟悉以后便能提高检索汉字的效率。
练习
整体字
非组合字的字称为“整体字”(又称“连体字”),包括以下三类:[5]
- 笔划彼此相连,无法分割者。如:更、才、韭、重等。
- 笔划虽非全部交连,但形势为一完整个体者。如:烏、來、噩、坐等。
- 〈例外字〉一节谈及的复合字首、复合字、难字、特殊字等,皆视为整体,不再分割。[6]如:“頨”字以“羽”为字首,“頁”为字身,而非以“习”为字首、“⿰习頁”为字身,因为“羽”是复合字首,不可进一步分割。
字形是否相连的判断
一些汉字笔划,有些人会写成相连,有些人则否,不易判断是否相连,以下为一些归纳的判断原则,用于处理模棱两可的情况:[7]
- 上方或右上方的点(丶)视为与整个字形相连。[8]
- 如:良、永、戈、甫、犬……等字皆视为整体字。
- ※但如今、令、倉、食……等字的“丶”则不视为与下相连。[9]
- 附属于整个字形的点(丶),在五代仓颉视为相连,三代仓颉则否。[8]
- 如:“兔”字在三代视为组合字,字首为“免”(向右下延伸),字身为“丶”,类似“勉”的结构;五代则把“兔”视为整体字。
- 如:“寸”字,五代明确定为相连,三代未明确提及,但相关字形结构通常在实际取码没有差异。
- 撇与下面笔划视为相连。[10]
- 如:自、乖……等字皆视为整体字。
- 单纯性横笔与其下之单纯性纵、斜向笔画视为相连。[11]
- 如:干、黄、焉、步、歹、文……等字皆视为整体字。
- ※但如枼、阜、泉、臭、蜀、夏、岪、居、圧、武、韱、戚、堊、汞……等字则视为组合字。[12]
- “ ”、“ ”、“ ”、“ ”与其上的横向笔划视为相连。[13]
- “ ”、“龴”、“ ”、“ ”与其下部视为相连。[14]
- 如:卓、鹵、占、甬、矛、了、氶、及、角、色、……等字皆视为整体字。
- “撇捺形状”或“盖子形状”(即“ ”、“ ”、“ ”、“ ”、“ ”、“ ”、“ ”、“ ”、“ ”、“ ”等),通常视为可和下方部件“一刀分离”。[15]
- 如:公、兌、分、谷、會、合、全、今、秦、券、脊、奄、夸、呑、喬、鴦、圣、蚤、各、夆、發、祭、擧、基、冗、字、學、孛、旁、憂、……等字,字首与字身都视为一刀横向分离。
- “ ”、“ ”、“ ”、“ ”、“ ”通常视为可和下部“一刀分离”。[16]
- 如:雍、玄、畜、率、舜、矣、牟等字,皆以“亠”、“爫”、或“厶”为字首。
- ※但文、亦、亡、六、立、产、辛、 、 、 、 、……等字形皆视为整体。[17]
- 尚有一些无法套用前述几项,但形势为完整个体者,亦视为整体字。[18]
- 此类字可大致归纳为二小类:
- 一是字形交错无法作前述“基本分割”或“延伸分割”者,如:乖、兩、噩、坐、爽、爾、㡭……等;
- 一是仅能勉强视作“延伸分割”者,如:馬、鳥、島、梟、烏、焉、舃、叢、商、啇、咼、酉、鹵……等。这些字的“字首”多半占了大部分空间或笔画繁复,以致整个字看来更像一个整体。
- ※鬼、羗在五代仓颉不视为整体字。[19]
练习
附注
- ↑ 《第五代仓颉输入法手册》称为“整体字”、“组合字”;二代及三代手册称为“连体字”、“分体字”。
- ↑ 《第五代仓颉输入法手册》第二章第二节提到:“整体字本无字首、字身之分,为统一取码观念,特以其第一码为字首,其余部分为字身,故整体字取一至四码。”第二章第一节介绍汉字分割时亦未提及整体字需要分割。按此发明人原意当是整体字不须分割,惟取码时“假定”分割,以套用类似组合字的取码方式。本教科书于取码说明时以“・”区分字首与字身及次字首与次字身,如“木・一一・口”表示“木”为字首、其后为字身,又其中“一一”为次字首、“口”为次字身。为避免混淆,本教科书于解说时一律不分割整体字,例如“其”的编码标示为“廿一一金”而非“廿・一一金”,以免读者难以分辨是整体字或组合字。
- ↑ 《第五代仓颉输入法手册》〈第二章・第一节・一、字首〉。
- ↑ 有些组合字的左右或上下部件略有交错、看似无法直线切开,如字例的“涤”、“祭”等,为规则统一,皆视为可以“一刀分离”。亦参见〈整体字〉及〈忽略书法变形或变位〉等节之说明。
- ↑ 五代手册〈整体字〉
- ↑ 五代手册〈整体字〉:“3.在第四节的复合字、难字、特殊字等例外字,均视为整体字。”
- ↑ 五代手册已言“中文字形体各异,笔画复杂,很难用简单清楚的文句定义‘整体字’”,其就此部分描述,与实际码表比对,亦非百分之百完备。以下内容除五代手册,亦参酌三代手册、实际编码字例、及其他仓颉教材增补。
- ↑ 8.0 8.1 五代手册〈整体字〉:“3.丶附属于整个字形,视为一整体字。如:寸、永、兔、甫、犬等。”1994年版三代手册〈连体字〉:“(2)斜、点与其下面字形笔划相接。如良、自、乖。”“(6)点(丶)皆视为与该字体相连,凡点在上方,均视为最高位。如犬、甫、尤。”
- ↑ 三代、五代手册未明确提及,但由手册字例可确定这些字皆视为“上中下”形组合字,其中“丶”不视为与下部或上部相连。例如“倉”取码“人・戈・日口”而非“人・戈竹・口”,显示点并非与下相连;“貪”取码“人・戈・弓金”而非“人弓・月山金”,显示点并非同时与上下相连。其理由可能是“点与下相连”(及下述的“点附属于整体”)只适用于“整体字形+点”的结构,这些字为“整体字形+点+整体字形”,故不适用。
- ↑ 1994年版三代手册〈连体字〉:“(2)斜、点与其下面字形笔划相接。如良、自、乖。”点的规则已于前面提及,故在此省略。五代虽无明确提及此原则,但并无相关编码异动,故仍视为适用。
- ↑ 五代手册〈整体字〉:“1.单纯之丨、丿笔画与其上的字形相连。如:干、黃、焉、歹、刀、卑等。”1994年版三代手册〈连体字〉:“(1)横向笔画与纵、斜向视为相连。如亡、正、步。”1984年版三代手册〈连体字取码〉:“1.横向笔画与纵、斜向笔画,视为相连。如:焉、步、乖”。又网友去信询问“阜”、“枼”何以不视为整体字,并推测上方的横笔须为“单纯性横笔”方适用此规则,沈答是,故按此补。
- ↑ 三代、五代手册未对“单纯性”做详细定义,按这些实际字例归纳,应是将“𠃊”、“凵”、“厂”、“尸”、“武-止”、“韱-韭”、“戚-尗”等形状下方的横笔视为非“单纯性”。此外三代手册第二章第一节介绍字首时提及“3.戈、戊、𢦏、㦰、产、……等,为便于取码,亦视为字首。”,亦可参考。“垩”、“汞”之分割方式目前尚无明确解释。
- ↑ 五代手册〈整体字〉:“2.八、 、儿等形状与其上部相连。如:真、貝、興、夔、西、見、兀等。”1994年版三代手册〈连体字〉:“(4)儿、八视为与上相连。如兒、免、兇、頁、貝、與、興。”
- ↑ 五代手册〈整体字〉:“4. 、 与其下的形状相连。如:甬、矛、及、角、龜、色等。”1994年版三代手册〈连体字〉:“(3)凡 、龴、 、 等字形与下相连,如桌、甬、角、色、業。”
- ↑ 1984年版三代手册〈字首〉:“2.八、人、父、𡗗、 、𦥯、 、龹、龸等,当作上下分离的字首。”
- ↑ 1994年版三代手册:“亠、八、爫、𠆢等字形视作与下面分离,皆属单字首。如:畜字首为“亠”不为“玄”;盆字首为“八”不为“分”。”
- ↑ 三代、五代手册未明确提及这些字形,稍有关系的只有三代手册第二章第一节介绍字首时提及“3.戈、戊、𢦏、㦰、产、麻、厭、厤、鴈、雁、辰、厥、羽、府、鹿、君等,为便于取码,亦视为字首。”有提到“产”字形。此按三代、五代手册实际取码规纳。 其中“六”、“ ”可用前述“ ”、“ ”与上相连的原则解释;“文”、“亦”、“亡”、“ ”可能是一般书写皆是相连,并无模棱两可,故不套用此原则;“立”、“产”、“辛”、“ ”、“ ”未有明确解释,可暂且将“立”型及“ ”视为相连的特例记忆。
- ↑ 五代手册〈整体字〉:“2.字形笔画虽非完全全部交连,但形势为一完整个体者。如:島、烏、焉、來、乘、乖、噩、坐、禺、离等。”1994年版三代手册〈连体字〉:“(5)鳥、烏、馬、裊、島‥等字亦视为连体字。”
- ↑ 官方并未明确说明原因,可能是把“鬼”、“羗”看作类似“勉”的结构所致。三代仓颉把“鬼”定义为复合字;“羗”则未见于官方三代手册的编码表。
辅助字形 | ◄ | 仓颉输入法 汉字分割 |
► | 基本取码 |