仓颉输入法/汉字分割

 辅助字形 仓颉输入法
汉字分割
基本取码 

仓颉输入法按照汉字结构特征取码,要清楚了解分割汉字的位置才能取对码。

分割汉字的核心概念是以视觉(而非字义或笔顺)判断汉字能否分割,不能分割者为“整体字”,能分割者为“组合字[1],并将其分割为“字首”、“字身”二部分;“字身”若还能分割,则按相同方式再分割为“次字首”、“次字身”二部分。[2]分割完后再对各部分分别取码。

组合字 编辑

以视觉判断汉字能否分割,能分割者为“组合字”(或称“分体字”)。

字首与字身 编辑

组合字可将第一部分分离为“字首”,其余部分则为“字身”。视组合形态不同,大略可分为以下两种分割方式:[3]

基本分割 编辑

可纵向或横向“一刀分离”者,其“最左侧”或“最上方”的部分定义为字首。

基本分割字例[4]
分类 图例 字例
左右形             
          
上下形             
          

延伸分割 编辑

一些字典惯用且位置固定的字形,会有一部分向右或向下延伸(   ),或以三面、四面包住另一字形(     ),为取码方便,亦视为字首。

延伸分割字例
图例 字例
              
            
            
    
           
    
    
    

练习 编辑

按此练习分割汉字(一)

次字首与次字身 编辑

组合字的字身若可分割,则比照分割整个汉字的方法分割为“次字首”与“次字身”。

字身份割范例(字首为红色、次字首为蓝色、次字身为绿色)
分类 图例 字例
字身为左右形   
  
  
          
          
          
字身为上下形   
  
  
          
          
          
字身为延伸形   
  
  
          
          
          

按此,有些字的异体写法,例如“广”末笔向下延伸的长度,会导致不同的分割方式:

基本分割型      
延伸分割型      

此外,请留意以下初学者常犯的错误:

错误:试图从字首分割出次字首 编辑

次字首与次字身是对字身的分割,与字首无关。例如“哲”的字首是“折”、字身是“口”,“口”为连体字不能再分割;若分割成字首“扌”、次字首“斤”、次字身“口”,就属错误。

正确分割          
错误分割          

错误:没有在最左侧或最上方分割 编辑

初学者分割汉字往往会受“部首”或“常见偏旁”影响,例如把“順”分割成“川”和“頁”。按规则应于最左侧分离出“丿”作为字首,接着将字身于最左侧分离出“丨”作为次字首,最后剩下“ ”为次字身。

先分字首                    
字身再分                    
错误分割                    

采用这种分割规则是为了方便视觉辨识,因为部首是根据“字义”决定,没有固定位置,导致某些汉字难以判断部首所在,例如“鸣”看似“口”部实为“鸟”部。仓颉输入法的设计与过去习惯不一致,但熟悉以后便能提高检索汉字的效率。

练习 编辑

按此练习分割汉字(二)

整体字 编辑

非组合字的字称为“整体字”(又称“连体字”),包括以下三类:[5]

  1. 笔划彼此相连,无法分割者。如:更、才、韭、重等。
  2. 笔划虽非全部交连,但形势为一完整个体者。如:烏、來、噩、坐等。
  3. 例外字〉一节谈及的复合字首、复合字、难字、特殊字等,皆视为整体,不再分割。[6]如:“頨”字以“羽”为字首,“頁”为字身,而非以“习”为字首、“⿰习頁”为字身,因为“羽”是复合字首,不可进一步分割。

字形是否相连的判断 编辑

一些汉字笔划,有些人会写成相连,有些人则否,不易判断是否相连,以下为一些归纳的判断原则,用于处理模棱两可的情况:[7]

  • 上方或右上方的点(丶)视为与整个字形相连。[8]
如:……等字皆视为整体字。
※但如……等字的“丶”则不视为与下相连。[9]
  • 附属于整个字形的点(丶),在五代仓颉视为相连,三代仓颉则否。[8]
如:“”字在三代视为组合字,字首为“免”(向右下延伸),字身为“丶”,类似“勉”的结构;五代则把“兔”视为整体字。
如:“”字,五代明确定为相连,三代未明确提及,但相关字形结构通常在实际取码没有差异。
  • 撇与下面笔划视为相连。[10]
如:……等字皆视为整体字。
  • 单纯性横笔与其下之单纯性纵、斜向笔画视为相连。[11]
如:……等字皆视为整体字。
※但如……等字则视为组合字。[12]
  •  ”、“ ”、“ ”、“ ”与其上的横向笔划视为相连。[13]
如:西……等字皆视为整体字。
又如:……等字的字首皆包含了“ ”、“ ”、“ ”。
同理,……等字的次字首皆包含了“ ”或“ ”。
视为整体字            
八归入字首                
八归入次字首      
  •  ”、“龴”、“ ”、“ ”与其下部视为相连。[14]
如:、……等字皆视为整体字。
视为整体字        
  • “撇捺形状”或“盖子形状”(即“ ”、“ ”、“ ”、“ ”、“ ”、“ ”、“ ”、“ ”、“ ”、“ ”等),通常视为可和下方部件“一刀分离”。[15]
如:、……等字,字首与字身都视为一刀横向分离。
八形、冖形与下分离                      
※“盖子形状”下接“撇捺形状”时,因前述撇捺与上方相连的原则,“盖子形状”不视为与下分离。如、……等字上方的“ ”、“ ”视为整体而不切开。
  •  ”、“ ”、“ ”、“ ”、“ ”通常视为可和下部“一刀分离”。[16]
如:等字,皆以“亠”、“爫”、或“厶”为字首。
亠、厶与下分离            
※但    、……等字形皆视为整体。[17]
亠黏他形者                      
厶黏他形者    
  • 尚有一些无法套用前述几项,但形势为完整个体者,亦视为整体字。[18]
此类字可大致归纳为二小类:
  • 一是字形交错无法作前述“基本分割”或“延伸分割”者,如:……等;
  • 一是仅能勉强视作“延伸分割”者,如:……等。这些字的“字首”多半占了大部分空间或笔画繁复,以致整个字看来更像一个整体。
在五代仓颉不视为整体字。[19]

练习 编辑

按此练习分割汉字(三)

附注 编辑

  1. 《第五代仓颉输入法手册》称为“整体字”、“组合字”;二代及三代手册称为“连体字”、“分体字”。
  2. 《第五代仓颉输入法手册》第二章第二节提到:“整体字本无字首、字身之分,为统一取码观念,特以其第一码为字首,其余部分为字身,故整体字取一至四码。”第二章第一节介绍汉字分割时亦未提及整体字需要分割。按此发明人原意当是整体字不须分割,惟取码时“假定”分割,以套用类似组合字的取码方式。本教科书于取码说明时以“・”区分字首与字身及次字首与次字身,如“木・一一・口”表示“木”为字首、其后为字身,又其中“一一”为次字首、“口”为次字身。为避免混淆,本教科书于解说时一律不分割整体字,例如“其”的编码标示为“廿一一金”而非“廿・一一金”,以免读者难以分辨是整体字或组合字。
  3. 《第五代仓颉输入法手册》〈第二章・第一节・一、字首〉。
  4. 有些组合字的左右或上下部件略有交错、看似无法直线切开,如字例的“涤”、“祭”等,为规则统一,皆视为可以“一刀分离”。亦参见〈整体字〉及〈忽略书法变形或变位〉等节之说明。
  5. 五代手册〈整体字〉
  6. 五代手册〈整体字〉:“3.在第四节的复合字、难字、特殊字等例外字,均视为整体字。”
  7. 五代手册已言“中文字形体各异,笔画复杂,很难用简单清楚的文句定义‘整体字’”,其就此部分描述,与实际码表比对,亦非百分之百完备。以下内容除五代手册,亦参酌三代手册、实际编码字例、及其他仓颉教材增补。
  8. 8.0 8.1 五代手册〈整体字〉:“3.丶附属于整个字形,视为一整体字。如:寸、永、兔、甫、犬等。”1994年版三代手册〈连体字〉:“(2)斜、点与其下面字形笔划相接。如良、自、乖。”“(6)点(丶)皆视为与该字体相连,凡点在上方,均视为最高位。如犬、甫、尤。”
  9. 三代、五代手册未明确提及,但由手册字例可确定这些字皆视为“上中下”形组合字,其中“丶”不视为与下部或上部相连。例如“倉”取码“人・戈・日口”而非“人・戈竹・口”,显示点并非与下相连;“貪”取码“人・戈・弓金”而非“人弓・月山金”,显示点并非同时与上下相连。其理由可能是“点与下相连”(及下述的“点附属于整体”)只适用于“整体字形+点”的结构,这些字为“整体字形+点+整体字形”,故不适用。
  10. 1994年版三代手册〈连体字〉:“(2)斜、点与其下面字形笔划相接。如良、自、乖。”点的规则已于前面提及,故在此省略。五代虽无明确提及此原则,但并无相关编码异动,故仍视为适用。
  11. 五代手册〈整体字〉:“1.单纯之丨、丿笔画与其上的字形相连。如:干、黃、焉、歹、刀、卑等。”1994年版三代手册〈连体字〉:“(1)横向笔画与纵、斜向视为相连。如亡、正、步。”1984年版三代手册〈连体字取码〉:“1.横向笔画与纵、斜向笔画,视为相连。如:焉、步、乖”。又网友去信询问“阜”、“枼”何以不视为整体字,并推测上方的横笔须为“单纯性横笔”方适用此规则,沈答是,故按此补。
  12. 三代、五代手册未对“单纯性”做详细定义,按这些实际字例归纳,应是将“𠃊”、“凵”、“厂”、“尸”、“武-止”、“韱-韭”、“戚-尗”等形状下方的横笔视为非“单纯性”。此外三代手册第二章第一节介绍字首时提及“3.戈、戊、𢦏、㦰、产、……等,为便于取码,亦视为字首。”,亦可参考。“垩”、“汞”之分割方式目前尚无明确解释。
  13. 五代手册〈整体字〉:“2.八、 、儿等形状与其上部相连。如:真、貝、興、夔、西、見、兀等。”1994年版三代手册〈连体字〉:“(4)儿、八视为与上相连。如兒、免、兇、頁、貝、與、興。”
  14. 五代手册〈整体字〉:“4.  与其下的形状相连。如:甬、矛、及、角、龜、色等。”1994年版三代手册〈连体字〉:“(3)凡 、龴、  等字形与下相连,如桌、甬、角、色、業。”
  15. 1984年版三代手册〈字首〉:“2.八、人、父、𡗗、 、𦥯、 、龹、龸等,当作上下分离的字首。”
  16. 1994年版三代手册:“亠、八、爫、𠆢等字形视作与下面分离,皆属单字首。如:畜字首为“亠”不为“玄”;盆字首为“八”不为“分”。”
  17. 三代、五代手册未明确提及这些字形,稍有关系的只有三代手册第二章第一节介绍字首时提及“3.戈、戊、𢦏、㦰、产、麻、厭、厤、鴈、雁、辰、厥、羽、府、鹿、君等,为便于取码,亦视为字首。”有提到“产”字形。此按三代、五代手册实际取码规纳。 其中“六”、“ ”可用前述“ ”、“ ”与上相连的原则解释;“文”、“亦”、“亡”、“ ”可能是一般书写皆是相连,并无模棱两可,故不套用此原则;“立”、“产”、“辛”、“ ”、“ ”未有明确解释,可暂且将“立”型及“ ”视为相连的特例记忆。
  18. 五代手册〈整体字〉:“2.字形笔画虽非完全全部交连,但形势为一完整个体者。如:島、烏、焉、來、乘、乖、噩、坐、禺、离等。”1994年版三代手册〈连体字〉:“(5)鳥、烏、馬、裊、島‥等字亦视为连体字。”
  19. 官方并未明确说明原因,可能是把“鬼”、“羗”看作类似“勉”的结构所致。三代仓颉把“鬼”定义为复合字;“羗”则未见于官方三代手册的编码表。


 辅助字形 仓颉输入法
汉字分割
基本取码