倉頡輸入法/漢字分割

 輔助字形 倉頡輸入法
漢字分割
基本取碼 

倉頡輸入法是按照漢字的結構特徵取碼,因此要清楚瞭解分割漢字的位置,才能正確取碼。

分割漢字的核心概念是以視覺(而非字義或筆順)判斷漢字能否分割,不能分割者為「整體字」,能分割者為「組合字[1],並將其分割為「字首」、「字身」二部分;「字身」若還能分割,則按相同方式再分割為「次字首」、「次字身」二部分。[2]分割完後再對各部分分別取碼。

組合字编辑

以視覺判斷漢字能否分割,能分割者為「組合字」(或稱「分體字」)。

字首與字身编辑

組合字可將第一部分分離為「字首」,其餘部分則為「字身」。視組合形態不同,大略可分為以下兩種分割方式:[3]

基本分割编辑

可縱向或橫向「一刀分離」者,其「最左側」或「最上方」的部分定義為字首。

基本分割字例[4]
分類 圖例 字例
左右形             
          
上下形             
          

延伸分割编辑

一些字典上慣用且位置固定的字形,會有一部分向右或向下延伸(   ),或以三面、四面包住另一字形(     ),為取碼方便,亦視為字首。

延伸分割字例
圖例 字例
              
            
            
    
           
    
    
    

練習编辑

按此進行漢字分割練習(一)

次字首與次字身编辑

組合字的字身若可分割,則比照分割整個漢字的方法分割為「次字首」與「次字身」。

字身分割範例(字首為紅色、次字首為藍色、次字身為綠色)
分類 圖例 字例
字身為左右形   
  
  
          
          
          
字身為上下形   
  
  
          
          
          
字身為延伸形   
  
  
          
          
          

按此,有些字的異體寫法,例如「广」末筆向下延伸的長度,會導致不同的分割方式:

基本分割型      
延伸分割型      

此外,請留意幾個初學者常見的錯誤:

錯誤:試圖從字首分割出次字首编辑

次字首與次字身是對字身的分割,與字首無關。例如「哲」的字首是「折」、字身是「口」,「口」為連體字不能再分割;若分割成字首「扌」、次字首「斤」、次字身「口」,就屬錯誤。

正確分割          
錯誤分割          

錯誤:沒有在最左側或最上方分割编辑

初學者分割漢字往往會受「部首」或「常見偏旁」影響,例如把「順」分割成「川」和「頁」。按規則應於最左側分離出「丿」作為字首,接著將字身於最左側分離出「丨」作為次字首,最後剩下「 」為次字身。

先分字首                    
字身再分                    
錯誤分割                    

採用這種分割規則是為了方便視覺辨識,因為部首是根據「字義」決定,沒有固定位置,導致某些漢字難以判斷部首所在,例如「鳴」看似「口」部實為「鳥」部。倉頡輸入法的設計與過去習慣不一致,但熟悉以後便能提高檢索漢字的效率。

練習编辑

按此進行漢字分割練習(二)

整體字编辑

非組合字的字稱為「整體字」(又稱「連體字」),包括以下三類:[5]

  1. 筆劃彼此相連,無法分割者。如:更、才、韭、重等。
  2. 筆劃雖非全部交連,但形勢上為一完整個體者。如:烏、來、噩、坐等。
  3. 例外字〉一節談及的複合字首、複合字、難字、特殊字等,皆視爲整體,不再分割。[6]如:「頨」字以「羽」為字首,「頁」為字身,而非以「习」為字首、「⿰习頁」為字身,因為「羽」是複合字,不可進一步分割。

字形是否相連的判斷编辑

一些漢字筆劃,有些人會寫成相連,有些人則否,不易判斷是否相連,以下為一些歸納的判斷原則,用於處理模稜兩可的情況:[7]

  • 上方或右上方的點(丶)視為與整個字形相連。[8]
如:……等字皆視爲整體字。
※但如……等字的「丶」則不視為與下相連。[9]
  • 附屬於整個字形的點(丶),在五代倉頡視為相連,三代倉頡則否。[8]
如:「」字在三代視為組合字,字首為「免」(向右下延伸),字身為「丶」,類似「勉」的結構;五代則把「兔」視為整體字。
如:「」字,五代明確定為相連,三代未明確提及,但相關字形結構通常在實際取碼上沒有差異。
  • 撇與下面筆劃視為相連。[10]
如:……等字皆視爲整體字。
  • 單純性橫筆與其下之單純性縱、斜向筆畫視為相連。[11]
如:……等字皆視爲整體字。
※但如……等字則視為組合字。[12]
  •  」、「 」、「 」、「 」與其上的橫向筆劃視爲相連。[13]
如:西……等字皆視爲整體字。
又如:……等字的字首皆包含了「 」、「 」、「 」。
同理,……等字的次字首皆包含了「 」或「 」。
視爲整體字            
八歸入字首                
八歸入次字首      
  •  」、「龴」、「 」、「 」與其下部視為相連。[14]
如:、……等字皆視為整體字。
視爲整體字        
  • 「撇捺形狀」或「蓋子形狀」(即「 」、「 」、「 」、「 」、「 」、「 」、「 」、「 」、「 」、「 」等),通常視爲可和下方部件「一刀分離」。[15]
如:、……等字,字首與字身都視爲一刀橫向分離。
八形、冖形與下分離                      
※「蓋子形狀」下接「撇捺形狀」時,因前述撇捺與上方相連的原則,「蓋子形狀」不視為與下分離。如、……等字上方的「 」、「 」視爲整體而不切開。
  •  」、「 」、「 」、「 」、「 」通常視爲可和下部「一刀分離」。[16]
如:等字,皆以「亠」、「爫」、或「厶」為字首。
亠、厶與下分離            
※但    、……等字形皆視爲整體。[17]
亠黏他形者                      
厶黏他形者    
  • 尚有一些無法套用前述幾項,但形勢上爲完整個體者,亦視爲整體字。[18]
此類字可大致歸納為二小類:
  • 一是字形交錯無法作前述「基本分割」或「延伸分割」者,如:……等;
  • 一是僅能勉強視作「延伸分割」者,如:……等。這些字的「字首」多半佔了大部分空間或筆畫繁複,以致整個字看來更像一個整體。
在五代倉頡不視為整體字。[19]

練習编辑

按此進行漢字分割練習(三)

附註编辑

  1. 《第五代倉頡輸入法手冊》稱為「整體字」、「組合字」;二代及三代手冊稱為「連體字」、「分體字」。
  2. 《第五代倉頡輸入法手冊》第二章第二節提到:「整體字本無字首、字身之分,為統一取碼觀念,特以其第一碼為字首,其餘部份為字身,故整體字取1—4碼。」第二章第一節介紹漢字分割時亦未提及整體字需要分割。按此發明人原意當是整體字不須分割,惟取碼時「假定」分割,以套用類似組合字的取碼方式。本教科書於取碼說明時會以「.」區分字首與字身及次字首與次字身,例如「木.一一.口」表示「木」為字首、其後為字身,又其中「一一」為次字首、「口」為次字身。為避免混淆,本教科書於解說時一律不分割整體字,例如「其」的編碼標示為「廿一一金」而非「廿.一一金」,以免讀者難以分辨是整體字或組合字。
  3. 《第五代倉頡輸入法手冊》〈第二章·第一節·一、字首〉。
  4. 有些組合字的左右或上下部件略有交錯、看似無法直線切開,如字例中的「滌」、「祭」等,為規則統一,皆視為可以「一刀分離」。亦參見〈整體字〉及〈忽略書法變形或變位〉等節之說明。
  5. 五代手冊〈整體字〉
  6. 五代手冊〈整體字〉:「3.在第四節中的複合字、難字、特殊字等例外字,均視為整體字。」
  7. 五代手冊已言「中文字形體各異,筆畫複雜,很難用簡單清楚的文句定義『整體字』」,其就此部分描述,與實際碼表比對,亦非百分之百完備。以下內容除五代手冊,亦參酌三代手冊、實際編碼字例、及其他倉頡教材增補。
  8. 8.0 8.1 五代手冊〈整體字〉:「3.丶附屬於整個字形,視為一整體字。如:寸、永、兔、甫、犬等。」1994年版三代手冊〈連體字〉:「(2)斜、點與其下面字形筆劃相接。如良、自、乖。」「(6)點(丶)皆視為與該字體相連,凡點在上方,均視為最高位。如犬、甫、尤。」
  9. 三代、五代手冊未明確提及,但由手冊字例可確定這些字皆視為「上中下」形組合字,其中的「丶」不視為與下部或上部相連。例如「倉」取碼「人.戈.日口」而非「人.戈竹.口」,顯示點並非與下相連;「貪」取碼「人.戈.弓金」而非「人弓.月山金」,顯示點並非同時與上下相連。其理由可能是「點與下相連」(及下述的「點附屬於整體」)只適用於「整體字形+點」的結構,這些字為「整體字形+點+整體字形」,故不適用。
  10. 1994年版三代手冊〈連體字〉:「(2)斜、點與其下面字形筆劃相接。如良、自、乖。」點的規則已於前面提及,故在此省略。五代雖無明確提及此原則,但並無相關編碼異動,故仍視為適用。
  11. 五代手冊〈整體字〉:「1.單純之丨、丿筆畫與其上的字形相連。如:干、黃、焉、歹、刀、卑等。」1994年版三代手冊〈連體字〉:「(1)橫向筆畫與縱、斜向視為相連。如亡、正、步。」1984年版三代手冊〈連體字取碼〉:「1.橫向筆畫與縱、斜向筆畫,視為相連。如:焉、步、乖」。又網友去信詢問「阜」、「枼」何以不視為整體字,並推測上方的橫筆須為「單純性橫筆」方適用此規則,沈答是,故按此補。
  12. 三代、五代手冊未對「單純性」做詳細定義,按這些實際字例歸納,應是將「𠃊」、「凵」、「厂」、「尸」、「武-止」、「韱-韭」、「戚-尗」等形狀下方的橫筆視為非「單純性」。此外三代手冊第二章第一節介紹字首時提及「3.戈、戊、𢦏、㦰、产、……等,為便於取碼,亦視為字首。」,亦可參考。「堊」、「汞」之分割方式目前尚無明確解釋。
  13. 五代手冊〈整體字〉:「2.八、 、儿等形狀與其上部相連。如:真、貝、興、夔、西、見、兀等。」1994年版三代手冊〈連體字〉:「(4)儿、八視為與上相連。如兒、免、兇、頁、貝、與、興。」
  14. 五代手冊〈整體字〉:「4.  與其下的形狀相連。如:甬、矛、及、角、龜、色等。」1994年版三代手冊〈連體字〉:「(3)凡 、龴、  等字形與下相連,如桌、甬、角、色、業。」
  15. 1984年版三代手冊〈字首〉:「2.八、人、父、𡗗、 、𦥯、 、龹、龸等,當作上下分離的字首。」
  16. 1994年版三代手冊:「亠、八、爫、𠆢等字形視作與下面分離,皆屬單字首。如:畜字首為“亠”不為“玄”;盆字首為“八”不為“分”。」
  17. 三代、五代手冊未明確提及這些字形,稍有關係的只有三代手冊第二章第一節介紹字首時提及「3.戈、戊、𢦏、㦰、产、麻、厭、厤、鴈、雁、辰、厥、羽、府、鹿、君等,為便於取碼,亦視為字首。」有提到「产」字形。此按三代、五代手冊實際取碼規納。 其中「六」、「 」可用前述「 」、「 」與上相連的原則解釋;「文」、「亦」、「亡」、「 」可能是一般書寫皆是相連,並無模稜兩可,故不套用此原則;「立」、「产」、「辛」、「 」、「 」未有明確解釋,可暫且將「立」型及「 」視為相連的特例記憶。
  18. 五代手冊〈整體字〉:「2.字形筆畫雖非完全全部交連,但形勢上為一完整個體者。如:島、烏、焉、來、乘、乖、噩、坐、禺、离等。」1994年版三代手冊〈連體字〉:「(5)鳥、烏、馬、裊、島‥等字亦視為連體字。」
  19. 官方並未明確說明原因,可能是把「鬼」、「羗」看作類似「勉」的結構所致。三代倉頡把「鬼」定義為複合字;「羗」則未見於官方三代手冊的編碼表。


 輔助字形 倉頡輸入法
漢字分割
基本取碼