倉頡輸入法/漢字分割
輔助字形 | ◄ | 倉頡輸入法 漢字分割 |
► | 基本取碼 |
倉頡輸入法按照漢字結構特徵取碼,要清楚瞭解分割漢字的位置才能取對碼。
分割漢字的核心概念是以視覺(而非字義或筆順)判斷漢字能否分割,不能分割者為「整體字」,能分割者為「組合字」[1],並將其分割為「字首」、「字身」二部分;「字身」若還能分割,則按相同方式再分割為「次字首」、「次字身」二部分。[2]分割完後再對各部分分別取碼。
組合字
以視覺判斷漢字能否分割,能分割者為「組合字」(或稱「分體字」)。
字首與字身
組合字可將第一部分分離為「字首」,其餘部分則為「字身」。視組合形態不同,大略可分為以下兩種分割方式:[3]
基本分割
可縱向或橫向「一刀分離」者,其「最左側」或「最上方」的部分定義為字首。
分類 | 圖例 | 字例 |
---|---|---|
左右形 | | |
上下形 | |
延伸分割
一些字典慣用且位置固定的字形,會有一部分向右或向下延伸( ),或以三面、四面包住另一字形( ),為取碼方便,亦視為字首。
圖例 | 字例 |
---|---|
練習
次字首與次字身
組合字的字身若可分割,則比照分割整個漢字的方法分割為「次字首」與「次字身」。
分類 | 圖例 | 字例 |
---|---|---|
字身為左右形 | |
|
字身為上下形 | |
|
字身為延伸形 | |
|
按此,有些字的異體寫法,例如「广」末筆向下延伸的長度,會導致不同的分割方式:
基本分割型 | ||
延伸分割型 |
此外,請留意以下初學者常犯的錯誤:
錯誤:試圖從字首分割出次字首
次字首與次字身是對字身的分割,與字首無關。例如「哲」的字首是「折」、字身是「口」,「口」為連體字不能再分割;若分割成字首「扌」、次字首「斤」、次字身「口」,就屬錯誤。
正確分割 | |||||
錯誤分割 |
錯誤:沒有在最左側或最上方分割
初學者分割漢字往往會受「部首」或「常見偏旁」影響,例如把「順」分割成「川」和「頁」。按規則應於最左側分離出「丿」作為字首,接著將字身於最左側分離出「丨」作為次字首,最後剩下「 」為次字身。
先分字首 | ||||||||||
字身再分 | ||||||||||
錯誤分割 |
採用這種分割規則是為了方便視覺辨識,因為部首是根據「字義」決定,沒有固定位置,導致某些漢字難以判斷部首所在,例如「鳴」看似「口」部實為「鳥」部。倉頡輸入法的設計與過去習慣不一致,但熟悉以後便能提高檢索漢字的效率。
練習
整體字
非組合字的字稱為「整體字」(又稱「連體字」),包括以下三類:[5]
- 筆劃彼此相連,無法分割者。如:更、才、韭、重等。
- 筆劃雖非全部交連,但形勢為一完整個體者。如:烏、來、噩、坐等。
- 〈例外字〉一節談及的複合字首、複合字、難字、特殊字等,皆視爲整體,不再分割。[6]如:「頨」字以「羽」為字首,「頁」為字身,而非以「习」為字首、「⿰习頁」為字身,因為「羽」是複合字首,不可進一步分割。
字形是否相連的判斷
一些漢字筆劃,有些人會寫成相連,有些人則否,不易判斷是否相連,以下為一些歸納的判斷原則,用於處理模稜兩可的情況:[7]
- 上方或右上方的點(丶)視為與整個字形相連。[8]
- 如:良、永、戈、甫、犬……等字皆視爲整體字。
- ※但如今、令、倉、食……等字的「丶」則不視為與下相連。[9]
- 附屬於整個字形的點(丶),在五代倉頡視為相連,三代倉頡則否。[8]
- 如:「兔」字在三代視為組合字,字首為「免」(向右下延伸),字身為「丶」,類似「勉」的結構;五代則把「兔」視為整體字。
- 如:「寸」字,五代明確定為相連,三代未明確提及,但相關字形結構通常在實際取碼沒有差異。
- 撇與下面筆劃視為相連。[10]
- 如:自、乖……等字皆視爲整體字。
- 單純性橫筆與其下之單純性縱、斜向筆畫視為相連。[11]
- 如:干、黄、焉、步、歹、文……等字皆視爲整體字。
- ※但如枼、阜、泉、臭、蜀、夏、岪、居、圧、武、韱、戚、堊、汞……等字則視為組合字。[12]
- 「 」、「 」、「 」、「 」與其上的橫向筆劃視爲相連。[13]
- 「 」、「龴」、「 」、「 」與其下部視為相連。[14]
- 如:卓、鹵、占、甬、矛、了、氶、及、角、色、……等字皆視為整體字。
- 「撇捺形狀」或「蓋子形狀」(即「 」、「 」、「 」、「 」、「 」、「 」、「 」、「 」、「 」、「 」等),通常視爲可和下方部件「一刀分離」。[15]
- 如:公、兌、分、谷、會、合、全、今、秦、券、脊、奄、夸、呑、喬、鴦、圣、蚤、各、夆、發、祭、擧、基、冗、字、學、孛、旁、憂、……等字,字首與字身都視爲一刀橫向分離。
- 「 」、「 」、「 」、「 」、「 」通常視爲可和下部「一刀分離」。[16]
- 如:雍、玄、畜、率、舜、矣、牟等字,皆以「亠」、「爫」、或「厶」為字首。
- ※但文、亦、亡、六、立、产、辛、 、 、 、 、……等字形皆視爲整體。[17]
- 尚有一些無法套用前述幾項,但形勢爲完整個體者,亦視爲整體字。[18]
- 此類字可大致歸納為二小類:
- 一是字形交錯無法作前述「基本分割」或「延伸分割」者,如:乖、兩、噩、坐、爽、爾、㡭……等;
- 一是僅能勉強視作「延伸分割」者,如:馬、鳥、島、梟、烏、焉、舃、叢、商、啇、咼、酉、鹵……等。這些字的「字首」多半佔了大部分空間或筆畫繁複,以致整個字看來更像一個整體。
- ※鬼、羗在五代倉頡不視為整體字。[19]
練習
附註
- ↑ 《第五代倉頡輸入法手冊》稱為「整體字」、「組合字」;二代及三代手冊稱為「連體字」、「分體字」。
- ↑ 《第五代倉頡輸入法手冊》第二章第二節提到:「整體字本無字首、字身之分,為統一取碼觀念,特以其第一碼為字首,其餘部份為字身,故整體字取一至四碼。」第二章第一節介紹漢字分割時亦未提及整體字需要分割。按此發明人原意當是整體字不須分割,惟取碼時「假定」分割,以套用類似組合字的取碼方式。本教科書於取碼說明時以「・」區分字首與字身及次字首與次字身,如「木・一一・口」表示「木」為字首、其後為字身,又其中「一一」為次字首、「口」為次字身。為避免混淆,本教科書於解說時一律不分割整體字,例如「其」的編碼標示為「廿一一金」而非「廿・一一金」,以免讀者難以分辨是整體字或組合字。
- ↑ 《第五代倉頡輸入法手冊》〈第二章・第一節・一、字首〉。
- ↑ 有些組合字的左右或上下部件略有交錯、看似無法直線切開,如字例的「滌」、「祭」等,為規則統一,皆視為可以「一刀分離」。亦參見〈整體字〉及〈忽略書法變形或變位〉等節之說明。
- ↑ 五代手冊〈整體字〉
- ↑ 五代手冊〈整體字〉:「3.在第四節的複合字、難字、特殊字等例外字,均視為整體字。」
- ↑ 五代手冊已言「中文字形體各異,筆畫複雜,很難用簡單清楚的文句定義『整體字』」,其就此部分描述,與實際碼表比對,亦非百分之百完備。以下內容除五代手冊,亦參酌三代手冊、實際編碼字例、及其他倉頡教材增補。
- ↑ 8.0 8.1 五代手冊〈整體字〉:「3.丶附屬於整個字形,視為一整體字。如:寸、永、兔、甫、犬等。」1994年版三代手冊〈連體字〉:「(2)斜、點與其下面字形筆劃相接。如良、自、乖。」「(6)點(丶)皆視為與該字體相連,凡點在上方,均視為最高位。如犬、甫、尤。」
- ↑ 三代、五代手冊未明確提及,但由手冊字例可確定這些字皆視為「上中下」形組合字,其中「丶」不視為與下部或上部相連。例如「倉」取碼「人・戈・日口」而非「人・戈竹・口」,顯示點並非與下相連;「貪」取碼「人・戈・弓金」而非「人弓・月山金」,顯示點並非同時與上下相連。其理由可能是「點與下相連」(及下述的「點附屬於整體」)只適用於「整體字形+點」的結構,這些字為「整體字形+點+整體字形」,故不適用。
- ↑ 1994年版三代手冊〈連體字〉:「(2)斜、點與其下面字形筆劃相接。如良、自、乖。」點的規則已於前面提及,故在此省略。五代雖無明確提及此原則,但並無相關編碼異動,故仍視為適用。
- ↑ 五代手冊〈整體字〉:「1.單純之丨、丿筆畫與其上的字形相連。如:干、黃、焉、歹、刀、卑等。」1994年版三代手冊〈連體字〉:「(1)橫向筆畫與縱、斜向視為相連。如亡、正、步。」1984年版三代手冊〈連體字取碼〉:「1.橫向筆畫與縱、斜向筆畫,視為相連。如:焉、步、乖」。又網友去信詢問「阜」、「枼」何以不視為整體字,並推測上方的橫筆須為「單純性橫筆」方適用此規則,沈答是,故按此補。
- ↑ 三代、五代手冊未對「單純性」做詳細定義,按這些實際字例歸納,應是將「𠃊」、「凵」、「厂」、「尸」、「武-止」、「韱-韭」、「戚-尗」等形狀下方的橫筆視為非「單純性」。此外三代手冊第二章第一節介紹字首時提及「3.戈、戊、𢦏、㦰、产、……等,為便於取碼,亦視為字首。」,亦可參考。「堊」、「汞」之分割方式目前尚無明確解釋。
- ↑ 五代手冊〈整體字〉:「2.八、 、儿等形狀與其上部相連。如:真、貝、興、夔、西、見、兀等。」1994年版三代手冊〈連體字〉:「(4)儿、八視為與上相連。如兒、免、兇、頁、貝、與、興。」
- ↑ 五代手冊〈整體字〉:「4. 、 與其下的形狀相連。如:甬、矛、及、角、龜、色等。」1994年版三代手冊〈連體字〉:「(3)凡 、龴、 、 等字形與下相連,如桌、甬、角、色、業。」
- ↑ 1984年版三代手冊〈字首〉:「2.八、人、父、𡗗、 、𦥯、 、龹、龸等,當作上下分離的字首。」
- ↑ 1994年版三代手冊:「亠、八、爫、𠆢等字形視作與下面分離,皆屬單字首。如:畜字首為“亠”不為“玄”;盆字首為“八”不為“分”。」
- ↑ 三代、五代手冊未明確提及這些字形,稍有關係的只有三代手冊第二章第一節介紹字首時提及「3.戈、戊、𢦏、㦰、产、麻、厭、厤、鴈、雁、辰、厥、羽、府、鹿、君等,為便於取碼,亦視為字首。」有提到「产」字形。此按三代、五代手冊實際取碼規納。 其中「六」、「 」可用前述「 」、「 」與上相連的原則解釋;「文」、「亦」、「亡」、「 」可能是一般書寫皆是相連,並無模稜兩可,故不套用此原則;「立」、「产」、「辛」、「 」、「 」未有明確解釋,可暫且將「立」型及「 」視為相連的特例記憶。
- ↑ 五代手冊〈整體字〉:「2.字形筆畫雖非完全全部交連,但形勢為一完整個體者。如:島、烏、焉、來、乘、乖、噩、坐、禺、离等。」1994年版三代手冊〈連體字〉:「(5)鳥、烏、馬、裊、島‥等字亦視為連體字。」
- ↑ 官方並未明確說明原因,可能是把「鬼」、「羗」看作類似「勉」的結構所致。三代倉頡把「鬼」定義為複合字;「羗」則未見於官方三代手冊的編碼表。
輔助字形 | ◄ | 倉頡輸入法 漢字分割 |
► | 基本取碼 |