倉頡輸入法/特別注意

 例外字 倉頡輸入法
特別注意
版本差異 

即使對倉頡輸入法規則相當熟悉,實際取碼輸入時,仍可能因某些問題無法順利打出想要的字。本章將探討此類問題,包括字形問題編碼訛誤爭議編碼等。

字形問題

编辑

「字形問題」指:取碼字形與螢幕顯示字形(或習慣的印刷、手寫字形)不同,按螢幕顯示字形(或習慣的印刷、手寫字形)取碼輸入卻打不出字的現象。

倉頡系統最初的規劃是統一以倉頡碼作為輸入、内碼、渲染基礎,因而顯示字形和輸入編碼一致;如用者看到「 」字形,並依照規則取碼輸入「戈十金金」,則系統必定渲染出「 」字形;如想在螢幕上看到另一字形,比如「 」,就必須輸入另一組倉頡碼「戈木木」。

然而現今主流的電腦平臺,輸入、内碼、渲染並不互相綁定。輸入碼與內碼對應可以是多對多(用選字方式處理);同一內碼在螢幕上渲染出的字形也可因電腦字體而異。

例如,內碼為萬國碼的話,「 」、「 」的內碼都是「麻」(U+9EBB),倉頡輸入法開發者根據台灣標準字形「 」把「戈十金金」與「麻」(U+9EBB)的對應編入。如果中國大陆使用者輸入「戈十金金」,系統會輸出對應的「麻」(U+9EBB),但中國大陆字體會把「麻」(U+9EBB)渲染作「 」,取碼字形和顯示字形不同。

倉頡系統的本質無此問題,且為避免重碼而沒有收錄太多異體字形,如朱邦復當初只公布「 ↔戈十金金」,而未公布「 ↔戈木木」。之後朱邦復淡出資訊界,各系統開發者根據朱邦復公布的「倉頡碼↔字形」對照表和萬國碼標準的「字形↔内碼」對照表建立「倉頡碼↔内碼」的對應,於是系統中的倉頡輸入法便沒有「戈木木」與「麻」(U+9EBB)的對應關係,中國大陆使用者試圖根據螢幕上看到的「 」取碼輸入「戈木木」就打不出字。

令情況更糟的是,繼朱邦復公布倉頡輸入法以後,許多國家和地區才規範了標準字形(如台灣的國字標準字體、香港的常用字字形表、中國大陆的通用规范汉字表),這些標準字形和朱邦復取碼的字形有不少差異,電腦字體大多按當地標準字形繪製,許多常用字在電腦顯示的字形和取碼字形不同,造成輸入困擾。

除非改用倉頡系統的架構,否則任何形碼輸入法都可能發生這種「顯示字形不同於取碼字形」的問題。要解決這種困擾,開發者必須盡可能把「字」的各種異體字形編入輸入法與內碼的對應關係,也就是所謂的「容錯碼」。比如有些倉頡輸入法開發者會把「戈十金金」和「戈木木」都對應到「麻」(U+9EBB)字,令使用者無論是在螢幕上看到「 」或「 」,取碼「戈十金金」或「戈木木」都能打出「麻」(U+9EBB)字。然而,輸入法開發者在容錯的努力不一,於是各版本的倉頡輸入法都有程度不一的「看字取碼卻打不出字」問題,使用者需要另行理解某些字的取碼字形,才能順利打出那些字。

下表依常見字形的倉頡編碼排序(三、五代不同者並列之,並以三代優先),列出一些取碼字形不同於常見字形的字例。所列字例一般可以類推,例如「反」有「一水」、「竹水」的字形差異,則含有「反」部件的字如「板」「叛」「坂」「皈」「版」「阪」「飯」「扳」「返」等字大抵也有同樣問題;「神」左半部的「示」有「戈火*」、「一火*」的字形差異,則「社」、「祖」等字左半部的「示」大抵也有同樣問題,讀者可自行舉一反三。

但類推時要注意,微軟倉頡收錄的大五字元(如「板」「飯」)多是沿用朱邦復的編碼,即「取碼字形編碼」,大五未收而萬國碼加收的字元(如「坂」),則是微軟自行按萬國碼收錄的標準字形擴充編碼,往往便符合「常見字形編碼」;許多市面上通行的倉頡也有類似情況。朱邦復淡出資訊界後仍先後公布了一些編碼,且處理了一定的容錯問題,因此較晚開發的倉頡輸入法(若是採用朱邦復的編碼表)一般較少此類問題。

字形問題字例
字元 常見字形 常見字形編碼 取碼字形 取碼字形編碼 補充說明
  日弓・竹尸・難   日弓・弓・竹難
  日弓・尸竹・難   日弓・弓・竹難
月・一尸人 月・一一人 萬國碼加收了「」字。
  月・手口 月・土・口 依字源,「 」是篆形寫法,「」是楷書習慣寫法。
月山・女一弓   月山・女一中 依字源,兩者都是「鼎」的象形,無分正俗。香港用取碼字形,台灣用常見字形。
  金・一・金廿 廿・金・月廿 依字源,「」字從「」從橫臥的「」,兩種寫法的上方都是「水」的變形,無分正俗。
  金・一金田 廿金田一 依字源,「 」字從「」從「」,常見字形較正統。
  金一大 廿大 五代倉頡只收「廿大」形。台灣標準字體中,含有「」部件的字如「」「」「」皆為「廿大」形,唯「」本字呈「金一大」形,導致按台灣標準字體編碼的倉頡(如微軟倉頡)的「关」本字只編入了「金一大」。
  金・一尸人 廿心竹人 依字源,「 」字從「」從「」,常見字形較正統。
  金・田火・日 金田・日 依字源,「 」是篆形寫法,「」是楷書習慣寫法。
木中・弓月金 木中・尸竹・金 依字源,「」字從「」,「」聲。「刀」在右旁變形成「刂」,在右上角可寫回「刀」形。取碼字形較正統。
沿 沿 水・竹弓・口 沿 水・金口 依字源,「」字上方示意被水沖毀,不從「几」。
水・竹人・月 水・人・中月 」是「」的訛字,大五兩者皆收,但部份早期系統只收其一,後來才加收另一字。
  水・竹尸・水   水・弓・水 常見字形右上角的部件並非「弓」的輔助字形[1],應取碼作「竹尸」。
土・月・竹弓 土・月・一弓 「殼」的俗字「壳」在「几」部件有一橫,唯中國《簡化字總表》去掉了那橫。按台灣標準字形編碼的倉頡(如微軟倉頡)只編入了「土・月・一弓」。五代倉頡支援二者。
土人・尸山 土人・口山 兩種寫法的分別是形聲字的聲旁不同。
  三代:竹日卜卜
五代:竹日尸
竹日・心  」形的字之異體,如「」等,但收得不齊全,仍有些字遭合併。另參「」字條。
  竹水・戈一 竹水・卜 依字源,「」字從「」,常見字形較正統。
  竹水・手 弓戈・手 依字源,「 」字從「」從「」,常見字形較正統。
竹水・卜 竹水・人 同類字有:「」「」等。五代倉頡支援二者。依字源,「」和「」字從「」爲正。
  竹・中・戈中   戈・中・戈中
  竹・一・竹弓   竹・一・弓大 倉頡系統最初取「竹一弓十」為編碼字形,之後改用「竹一弓大」,而後「竹一弓大」、「竹一竹弓」。依字源,「竹一弓大」形爲正。
  竹・一・口土   竹口・土 三代倉頡取「竹一口土」,五代倉頡取「竹口土」。[2]
竹女心戈 竹心・一 五代倉頡支援二者。依字源,「」字下從「」爲正。
竹難心火 竹難卜火 萬國碼加收了「」字。
三代:竹難・卜心・女
五代:竹難・尸女・女
竹難・女卜・女 依字源,兩者皆鼠腳象形,無分正俗。
  三代:竹卜・尸中
五代:竹尸・尸中
日戈・尸中 依字源,「 」爲盛載食物的器皿,常見字形較正統。另參「」字條。
  戈・木木   戈・十金・金 由於一些歷史因素,許多系統「麻」本字作「戈・十金・金」但以「麻」為字首的衍生字取「戈木」。五代倉頡二者兼收。依字源,「」不從「林」,取碼字形爲正。
戈大水 戈大大 五代倉頡支援二者。依字源,「」字從「」不從「友」,以取碼字形爲正。
戈尸・卜竹尸 竹尸・卜竹尸 「戶」本字因字源分離原則,萬國碼另收了「户」「戸」作為異體;衍生字如「」「」「」「」等則只收其一。五代倉頡支援二者。依字源,「」是象形字,取碼字形較存古形。
  十月山女 十月一一 依字源,「 」是原形寫法,常見字形較正統。另外,基於「字源分離原則」,萬國碼收了「」作爲「」的異體。
十金・竹田・水 十金・竹田・大 五代倉頡支援二者。依字源,「」字像窗框與窗花之形,取碼字形較存古形。
十大・一女尸   十大・卜尸
  十人・竹水   十人・弓戈 依字源,「 」字上從「」,下從「[3]。大部分電腦字體及至古書用字,「麥」字末筆多會出頭,呈「夕」字形的極為罕見,幾可視為錯字。據此,「麥」字當取「木人竹水」,作偏旁時無論末筆是否延伸皆宜取「木水*」,但直到六代才支援從「來」的字形,未支援此字形前相對合理的取法是「十人竹水」及「十水*」。
十水・一田中   十弓・一田中
  十大戈日 十大日 依字源,「 」與「」(「老」字之省形,通稱「老字頭」)相異,常見字形較正統。另外,基於「字源分離原則」,萬國碼收了「」作爲「」的異體。
  十・廿金・一 十・廿金・卜 依字源,「」字從「」,常見字形較正統。
十田日女   中中・女 五代使用此取碼字形(上部左右不出頭,中部橫「日」出頭但不與「女」相接),三代為「中田中女」形;六代因修改規則改取「中田中女」。另參〈取碼爭議〉一節。
  中田中女 三代使用此取碼字形(上部左右不出頭,中部橫「日」出頭且與「女」相接),五代改為「中中・女」形。另參〈取碼爭議〉一節。
十女 十山 倉頡系統早期只支援「十山」形,2003年版五代倉頡支援二者。
大木・竹弓・水 大金・竹弓・水 同類字有:「」「」等。五代倉頡支援二者。依字源,「」字從「」。
大戈・月 卜戈・月 台灣標準字體編製者稱,「」字頂部爲倒轉的「子」字,因此要以三筆寫完。但多部經典字書皆把「」字編為肉部四畫,許多流傳多年的彫版書籍和碑帖也都把這部件寫作四筆。其他地區皆未採此形[4]
大・中田女 大・中田山
中中一弓   中中一中 倉頡系統早期只支援「中中一中」形,2003年版五代倉頡支援二者。
中一・戈・人 女・戈・人
  一水   竹水 依字源,「」字從「」從「」,常見字形爲正。
  一水月   一中月卜 五代新增了「水」的輔助字形「 」,若依楷體寫法,推論上「 」形也應適用。
  一火・中田中 戈火・中田中 依字源,「 」是原形寫法,「」是楷書習慣寫法。
一土・竹水 一土・人大 依字源,「」之右半應爲「」(「竹水」)而非「」(「人大」)。
一土戈 竹土戈 依字源,「」字從「」從「」,常見字形爲正。
一十竹難 竹十竹難 依字源,「」字從「」從「」,常見字形爲正。
一十口 竹十口 依字源,「」以常見字形「⿱干口」爲正。但「」「」「」「」「」等字所從的「⿱千口」是「𠯑」的異體,不能寫作「⿱干口」。此外,俗寫字如「」「」「」「」一般只寫作「⿱千口」。
一大・心   竹大・心 依字源,「」字從「」,「」聲,常見字形爲正。
一大・心 一弓・心  」不從「凡」,常見字形爲正。
一大・口 竹大・口 萬國碼加收了「」字。依字源,「」字從「」,「」聲,常見字形爲正。
一中一弓 一女弓戈
  一弓戈心   一弓・心 取碼字形是左上-右下型組合字「 」,而非左右型組合字「 」。由「㰷」取碼「一心・弓人」而非「一弓・心・弓人」可知。
弓月手 弓月土 五代倉頡支援二者。依字源,「」是象形字,以取碼字形較存古形。
  弓竹・弓竹竹 弓一・弓戈一 依字源,「 」是原形寫法,「」是楷書習慣寫法。
弓大・竹卜女 弓大・竹卜一 五代倉頡支援二者。依字源,「」字從「」,以底橫向左出頭者爲正。
弓一・心 弓尸・心 中橫穿頭者,包含省略原則不適用,故字首的尾碼是「一」。中橫不穿頭者,套用包含省略原則,字首的尾碼取「尸」。依字源,「」中間是一隻手,如「」之頂部,以中橫穿頭者爲正。
  人・中・竹木   人・中・人木 簡化字「条」一般據中國字形取碼「竹水木」,而非「人大木」。
人・一・日口 人・戈・日口 」「」「」等字皆取「人一」開頭的字形。一種判斷方式是:「一」之後的筆劃若爲由左向右的橫筆,書寫時常因手順將「一」寫成「丶」,就會有取碼爲「人戈」的字形;反之則無。
  三代:人・一・日卜
五代:人・一・日尸
人・戈・日戈 依字源,「 」省去撇筆),常見字形較正統。另外,基於「字源分離原則」,萬國碼收了「」作爲「」的異體。
人・一・弓 人・戈・弓
  人・一・尸中 人・戈・弓戈 依字源,「 」,常見字形較正統。
人・口・竹女 人・口・竹山 同類字有:「」「」「」等。
人女・尸中 人一・尸中 依字源,「」字從「」,以底橫向左出頭者爲正。
心・一一 心・戈一 萬國碼加收了「」字,微軟倉頡將此加收字誤編碼作「心卜」,詳見微軟倉頡的編碼訛誤一節。依字源,從「一一」者較吻合古形。
手・日・土 手・竹難・一 萬國碼加收了「」字。
手・火月竹 手・火月手 萬國碼加收了「」字。
手一・田十竹 手一・田卜戈 另參「毋」的字形問題。
手・口・大尸 手・口・尸竹 五代倉頡支援二者。依字源,「」字不從「另」。
手尸・人大 土尸・人大 五代倉頡支援二者。
口・一土 口・竹土 五代倉頡支援二者。依字源,「」字從「𡈼」,以取碼字形爲正。
  尸・水・竹手   三代:尸・卜卜・手
五代:尸・水・竹手
由於「水」的輔助字形「 」是五代才新增,取碼字形「 」在三代倉頡須分開取碼。若是對「 」字形取碼,三、五代皆可取作「尸水竹手」。同類字有:「」等。
  尸竹・日竹戈 三代:弓山・戈
五代:弓日竹戈
依字源,「」字不從「刀」,取碼字形較正統。
  尸竹・日竹山 弓日竹山 依字源,「」字不從「刀」,取碼字形較正統。
  尸竹・日山   弓日山
  尸竹・月山金 弓月山金 依字源,「」字不從「刀」,取碼字形較正統。注意「」字不從「負」,右上從「刀」,詳見本表「」字條。
  尸竹・尸竹竹 尸一・尸戈一 依字源,「 」是原形寫法,「」是楷書習慣寫法。
尸口・一土 尸口・竹土 五代倉頡支援二者。依字源,「」字從「𡈼」,以取碼字形爲正。
  廿金・尸山 廿金・口山 依字源,「」字從「」,「」聲,兩種寫法的下方都是「邑」的變形。
廿竹・一 廿手・一 同類字有:「」「」「」等。
  廿・一・田金   廿・一中金 台灣標準字形「 」之編製者稱此寫法乃依《說文》解釋「田」中豎上方不穿頭。但《說文》之解釋不符其篆形,在文字學界亦已公認有誤。其他地區皆未採此形[5]
  廿田金   廿中田金 參「黃」字。
山・大・火 山・一・火 五代倉頡支援二者。依字源,「」字從「」從「」,不從「灰」。
  田十竹   田十 2003年版五代倉頡支援二者。「 」的編碼有爭議,參〈爭議編碼〉一節。
卜月・一土 卜月・竹土 五代倉頡支援二者。依字源,「」字從「𡈼」,以取碼字形爲正。
卜・戈木 卜・戈十金 同類字有:「」等。五代倉頡支援二者。依字源,「」字不從「木」,以取碼字形爲正。
卜戈・中田人 卜戈・竹難人 萬國碼加收了「」字。
卜大・一・竹竹 卜竹・竹竹竹 萬國碼加收了「」字,微軟對此加收字誤編碼作「卜廿竹竹」,詳見微軟倉頡的編碼訛誤一節。依字源,「」之上方應爲「」。
卜大・一・竹一 卜竹・竹手一 萬國碼加收了「」字,微軟將此加收字誤編碼為「卜廿竹一」,詳見微軟倉頡的編碼訛誤一節。依字源,「」之上方應爲「」。
卜心・竹弓 卜心・竹山 同類字有:「」等。五代倉頡支援二者。依字源,「」字從「」,以取碼字形爲正。
三代:卜口・月・月大
五代:卜大・月山金
三代:卜口・月・月弓
五代:卜弓・月山金
右下作「 」不適用包含省略原則;右下作「」者適用包含省略原則,取「竹弓戈」。依字源,「𦝠」不從「凡」,以取「卜大」者爲正。
卜・口・月弓 卜・口・月山 同類字有:「」等。五代倉頡支援二者。依字源,「」字從「」,以取碼字形爲正。
山一 山竹 2003年版五代倉頡支援二者。

編碼訛誤

编辑

倉頡輸入法由於很早就開放,很多版本是人們自行開發,未與朱邦復團隊確認。這些開發者或因不慎,或因對倉頡編碼規則不夠熟悉,為某些字設置了不符合倉頡輸入法的編碼規則的編碼。

有些倉頡輸入法版本特別流行,其編碼錯誤影響也大,以下特作介紹。

微軟倉頡的編碼訛誤

编辑

Windows爲目前中文電腦之主流作業系統,其內建的中文輸入法也最多人用。今日習稱的「三代倉頡」、「微軟倉頡」多是指Windows系統內建的倉頡輸入法或新倉頡輸入法。

早期正體中文版的微軟Windows系統用收字較少的大五作內碼,這萬三多字的倉頡碼是沿用朱邦復公佈的編碼,比較準確。Windows 2000以後的版本,開始支援萬國碼時,非大五字(多爲簡化字及罕用字)的倉頡編碼是由微軟人員自行擴充,這些編碼的擬定並沒有與朱邦復團隊溝通,於是有些字的編碼不符合倉頡輸入法的規則。

下表依標準倉頡編碼(以三代為主)排序,舉出一些編碼訛誤的字例:

微軟倉頡編碼訛誤表
例字 標準倉頡編碼 微軟倉頡編碼 補充說明
日・廿・中大 日・廿・大月 違反「中月大)」字的拆碼,詳見特殊字規則。
月月・尸一・竹 月月・尸卜・竹 誤把「 」當成是「卜」的輔助字形。實際上,「 」應拆作「戈一」。
月山・中月大 月山・大月 違反「中月大)」字的拆碼,詳見特殊字規則。
金・竹木・尸 金・竹木・竹 違反「弓竹尸)」字的拆碼。「」爲「」的異體字。
𨭱 金・十戈・土 金・土戈・土 違反「𢦏十戈)」的拆碼。詳見區塊分則中的「哉」字例。
金・廿・中大 金・廿・大月 違反「中月大)」字的拆碼。
木・廿・中大 木・廿・大月 違反「中月大)」字的拆碼。
水・戈女水 水・女戈水 字身「」的點筆在右上角,應當視爲位於最高位,要先取這點,不可以先取「 」;同類字有「」等。微軟編碼違反了拆字取碼時要注意的地方
水・人一金 水・竹一金 違反「人一金)」字的拆碼。
火月・弓木 戈月・弓木  」應一次過取,不應拆作「   」。微軟編碼違反精簡原則
火・大女金 火・手木 所取的字根爲「    」。字身部份若獨立拆碼,全取是「    」,唯作字身時第三碼省略。微軟編碼違反了轉角分則,在「 」和「 」的轉角位斷開。
火・尸一・竹 火・尸卜・竹 誤把「 」當成是「卜」的輔助字形。
竹木・尸・卜手 竹木・尸・水手 採用五代中「水」的新輔助字形「 」,而與「尸・卜卜・手)」的拆碼不一致。
竹十・尸一・一 竹十・尸卜・卜 誤把「 」當成是「卜」的輔助字形。
竹十・尸一・一 竹十・尸卜・卜 誤把「 」當成是「卜」的輔助字形。
竹廿・人竹人 竹月廿人 錯誤分割字形。這字可拆作字首「」和字身「」,微軟編碼者卻誤當它是整體字。詳見漢字分割規則。
竹女・月山山 竹女・月山 違反「月山竹山)」字的拆碼。
竹田・土廿十 竹田・土廿戈 疑爲手民之誤,在設定尾碼的編碼時按錯鍵。
戈木尸 戈木木;
戈木尸
「木」的輔助字形「 」和「 」後無鉤,故「戈木木」這編碼並不合理。
戈戈一 戈卜 誤把「 」當成是「卜」的輔助字形。
戈十 戈一 同類字有:「线」等。微軟編碼違反了特殊字原則。
戈大尸戈 戈大尸戈;
戈大弓戈
「戈大弓戈」編碼違反了轉角分則,在「 」的轉角位斷開。
戈一・木大 卜・木大;
戈一・木大
誤把「 」當成是「卜」的輔助字形。
戈一・土・田金 卜・土・田金;
戈一・土・田金
誤把「 」當成是「卜」的輔助字形。
戈一・戈竹・口 卜・戈竹・口;
戈一・戈竹・口
誤把「 」當成是「卜」的輔助字形。
戈一・中 卜・中;
戈一・中
誤把「 」當成是「卜」的輔助字形。
戈一・一田木 卜・一田木;
戈一・一田木
誤把「 」當成是「卜」的輔助字形。
戈一・手大・大 卜・手大・大;
戈一・手大・大
誤把「 」當成是「卜」的輔助字形。
戈一・口竹山 卜・口竹山;
戈一・口竹山
誤把「 」當成是「卜」的輔助字形。
戈一・卜・口火 卜・卜・口火;
戈一・卜・口火
誤把「 」當成是「卜」的輔助字形。
戈一・卜・田火 卜・卜・田火;
戈一・卜・田火
誤把「 」當成是「卜」的輔助字形。
戈・弓女 戈・弓 」的第二筆並非「弓」的輔助字形,且此偏旁非由尾部作「 」的字形變形,不能視爲「山」的輔助字形,故只能取「戈弓女」。微軟的「」字首編碼不統一,有作「戈弓」「戈山」、或二者皆有,皆屬錯誤。
戈女・人 戈弓・人;
戈山・人
戈女大水 火大水;
戈女大水
」只有五畫,筆畫「 」在轉角處沒有斷開作兩筆。將其上方看作「 」而取「火大水」並不合理,違反了轉角分則
中戈一 卜中;
戈一中
」的豎筆最高,根據「由上至下,由左至右」原則,應先取較高者,「中戈一」才正確。
中一・土 卜中・土
中戈尸 中尸;
心人
1987年版五代曾將「」視作複合字取首尾碼「中尸」,但1999年版五代取消,全字由左至右取「中戈尸」,作字首時只取首尾碼,因此仍爲「中尸」。微軟編碼不統一,有作「中尸」,或「戈尸」,或二者皆有。「戈尸」系列除字首錯誤,字身尚有很多錯碼,如:心人)、戈尸)、戈尸一)、戈尸人)、戈尸一一一)、戈尸一十)、戈尸木竹)、戈尸口)……疑似字碼與字元的對應關係遭移位。
中尸・日 中尸・日;
戈尸・日
中尸・木 中尸・木竹
一土・口女心 一土・口山心 誤把「女」的輔助字形「 」當成是「山」的輔助字形。只有原本寫作「 」,但因書法美觀而讓右屈鉤寫作「 」的筆畫才會取「山」。
一山・尸戈・廿 一山・尸一・廿 與「大山・尸戈・廿)」字的拆碼不一致。
弓一・弓中 弓大・竹一・中 錯誤分割字形,或疑據「⿺廴⿰𠂛阝」字形取碼。
人・戈・弓戈 人弓・一一戈 錯誤分割字形。這字屬多層形,字首爲「 」,次字首爲「 」,其餘部份爲次字身。微軟編碼者卻誤當「」是字首。詳見漢字分割規則。
人・一心 金;
人・一心
微軟的「」字首,多爲「人心」和「」兩者皆有。然而「」並非「金」的輔助字形,作字首時只能取「人心」。發明人朱邦復解釋過,不把「」視作「金」的輔助字形,是因爲要避免正、簡字經常重碼。許多金旁的字,簡化了的就只有這字首。要是每次輸入時,都變成重碼,將帶來許多不便。
人心・尸一・竹 人心・尸卜・竹 誤把「 」當成是「卜」的輔助字形。
人・卜竹・竹 人・卜廿竹 錯誤分割字形。這字的字身「」可再拆作次字首「」和次字身「」。微軟編碼者卻誤當「」是整體字。詳見漢字分割規則。
心戈一 心卜 誤把「 」當成是「卜」的輔助字形。微軟另收異體「」字,但編碼也有問題,見編碼字形差異
心人 心人;
人心卜口女
所取的字根爲「  」。而「人心卜口女」應是「」的編碼。
口一・尸一・竹 口一・尸卜・竹 誤把「 」當成是「卜」的輔助字形。
口・卜心・金 口・卜心・一 誤把「 」當成是「廿」的輔助字形。見下方「」字。
尸火・中月大 尸火・大月 違反「中月大)」字的拆碼,詳見特殊字規則。
三代:弓女尸一
五代:尸一
弓尸・一 2003年版五代加了輔助字形「 」處理「」字。若沒有此輔助字形,理應視作整體字取碼「弓女尸一」。微軟視作組合字取碼不正確。
廿・竹女心 廿・竹山心 誤把「女」的輔助字形「 」當成是「山」的輔助字形。
廿中・一十 中一卜手 此字有許多異體字,微軟收了「」(中一卜手)、「」(廿手)二字;倉頡系統則收了「」(廿中・手)、「」(廿中・一十)、「」(廿手)等。由於「 」是「廿」的輔助字形,不論怎麼寫,都不可以拆作「中一卜」,否則就違反了精簡原則
女・口女心 女・口山心 誤把「女」的輔助字形「 」當成是「山」的輔助字形。
女・廿中大 女・廿大月 違反「中月大)」字的拆碼。
田・口女心 田・口山心 誤把「女」的輔助字形「 」當成是「山」的輔助字形。
田・尸一・竹 田・尸卜・竹 誤把「 」當成是「卜」的輔助字形。
田卜卜中 田尸中 誤用五代倉頡編碼。在三代倉頡中,「 」應拆成「卜卜」。它在五代倉頡裏才新增作「尸」的輔根。
卜竹・竹・竹竹 卜廿竹竹 錯誤分割字形。這字可拆作字首「」和字身「」,微軟編碼者卻誤當它是整體字。詳見漢字分割規則。微軟另收異體「」字,但編碼也有問題,見編碼字形差異
卜竹・竹手一 卜廿竹一 錯誤分割字形。這字可拆作字首「」和字身「」,微軟編碼者卻誤當它是整體字。詳見漢字分割規則。微軟另收異體「」字,但編碼也有問題,見編碼字形差異
卜心・廿金 卜心・廿一 誤把「 」當成是「廿」的輔助字形。事實上,只有「 」才是「廿」的輔助字形。「」應拆「廿金」。
卜尸・人・卜人 卜尸・卜・人人  」部件移了位。

全字庫倉頡的編碼訛誤

编辑

中文全字庫是中華民國國家發展委員會建立的中文交換碼標準(CNS11643)所附的倉頡碼。由於為國家標準且編碼表開放,有自製的倉頡輸入法會使用此編碼表,通稱「全字庫倉頡」或「中標倉頡」。微軟亦於Windows 2007年以後的內建倉頡輸入法支援此編碼表(可在倉頡輸入法的[字元集設定]勾選[允許使用中文標準交換碼全字庫(CNS11643)所定義的字根輸入])。此資料庫所收字集龐大,有許多倉頡碼是自行編入,而非採用朱邦復的編碼表,因而有一些並不符合倉頡輸入法的規則。使用者如有疑义可聯絡全字庫客服提供建議。

爭議編碼

编辑

有些字的編碼雖是由朱邦復團隊親自釐定,但其作法與其他相似字頗不一致,因而一般認為可能有疏失或錯誤。一些倉頡輸入法開發者為便利使用者,會修改有爭議的官方編碼,或加上容錯碼。

五代字首分割爭議編碼

编辑

因實務考量,「撇捺形狀」或「蓋子形狀」字形,如「𠆢」、「八」、「大」、「夭」、「天」、「冖」、「宀」、「癶」、「𡗗」、「龹」、「夂」、「 」、「 」、「 」、「 」、「𦥯」等等,雖輕微遮住下部字形,仍統一將其下緣視為可一刀分離(即「 結構」一律視為「 結構」;為便討論,以下簡稱「冖頭分離」),如「貧」之字首取「八」不取「分」、「奮」之字首取「大」不取「奞」、「喬」之字首取「夭」不取「呑」等等。

三代手冊有明確提及上述判定原則[6],五代手冊則未見相關敘述。考察實際字例,五代手冊大部分字皆遵從「冖頭分離」,但有些「癶」、「𡗗」、「夂」、「 」字形不再適用(改視為「 結構」),例如「蠢」字首由「𡗗」改為「春」,「螽」字首由「夂」改為「冬」[7];然而五代改碼不統一,五代手冊、漢文庫典有些同類字並未比照,例如「㚅」、「𣔽」、「癹」、「䆐」、「𩶓」等字仍適用「冖頭分離」取「夂」、「癶」、「𡗗」為字首,而非取「 」、「癸」、「 」、「秦」、「 」為字首。[8]

六代倉頡相關字有些改用新規則處理,而繞過了此問題,其他字都取消了五代變動,比照三代適用「冖頭分離」。民間自行開發的五代倉頡輸入法,有些沿用五代手冊的處理方式,但相關爭議字可能改為適用「冖頭分離」,或兼容兩種做法。

以下分類列出五代手冊及漢文字典相關字的編碼,包括改為不適用「冖頭分離」而改動編碼的字,以及仍適用「冖頭分離」的字:

五代字首分割爭議字形列表
主字形 更動字首 非冖頭分離 冖頭分離
  竹十・火
卜十・竹手・水[9] 卜十・竹水・水[9]
木・竹水・金
𨼇弓中・竹水・一
𠏤人・竹水・金
𥫔卜十・竹水・金
竹口・水
竹口・心
十・竹口・心
竹田・心
卜・竹田・水
𨙅卜・竹田・人
竹卜・中戈・戈
竹卜・弓
其他 竹水・一・竹一
卜十・竹水・金
  木・弓廿・弓
弓廿・竹弓
𤼶弓廿・大尸
𤼷弓廿・廿
其他 𤼴弓人・土戈・廿
弓人・竹弓・水
𣔽弓人・一大・木
𥙊弓人・一一・火
  𪃣手日・竹日火
手日・中戈・戈
𧎌手日・中一戈
手日・心
𣌠手日・手日・日
𡆂口・手日・戈
𨙥卜・手日・戈
𡏑手木・土 手大・竹木・木
𧢆手難・月山山
𦦾手難・土・弓戈
𪆊手難・竹日火
𦦱手難・一十難
手難・心
其他 𥘿手大・一・一火
𠒏手大・一・一山
𩶓手大・弓田・火
  卜月・口
卜月・女
其他

其他爭議編碼

编辑

以下據五代倉頡編碼排序,列出一些較有爭議的例子:

爭議編碼列表
字元 字形 五代倉頡編碼 其他倉頡編碼 補充說明
田一 輔助字形獨自成字時,普遍需要分割取碼。沈紅蓮認為「日」與「曰」視為同形,故視為重複字處理。[10]
月一 月山 比照「目」取碼「月山」而非「月一」,「囗」亦應取碼「月山」而非「月一」。六代將此字編碼改作「月山」,似乎默認過去編碼有誤。[11]
竹火 火戈 「火戈」之取法較符合先簡後繁原則。[12]
竹竹・尸中戈 竹竹・尸卜 最初設計時可能認為分離的豎和點不適用「卜」的字形,但後來為「鸟」取「心卜尸一」又似乎與此矛盾。[13]
竹卜 卜竹、中金 「忄」中豎明顯突出,似乎可先取「卜」形,或比照「小」取「中金」。[14]
戈戈一 卜一 上部二點為「卜」的輔助字形,應比照「斗」「头」等字適用之。六代將此字編碼改作「卜一」,似乎默認過去編碼有誤。

[15]

竹人、人竹 輔助字形獨自成字時,普遍需要分割取碼。此字可能為避免字根互相跨越及保留「交叉」的字形特徵而不分割取碼。六代將此字編碼改作「竹人」(但按由上而下或由左而右之取碼原則似乎應取「人竹」)。[16]
中中・女 十田日女 按台灣標準字形,視為整體字應較合理。比照「曲、西、丳」等字,應可允許「 」跨越「 」。[17]
中尸一一 廿廿廿一 比照「㐀」。當初可能未想到可利用「 」(廿)。[18]

認為沒有問題的觀點:比較沒有 同字 拆成不同部件的問題. 非[全取 左 右 : 中一一一 尸卜] 145尾,韭[全取 連體 : 中尸一一卜一一] 123尾.

中田中一 中田一 比照「曲、西、丳」等字,應可允許「 」跨越「 」,故取「中田一」即可,此取碼與此規律不一致。[17]
一中中一 一中中廿 似乎於當初取碼時未考慮到「廿」的輔助字形。衍生字如「啞」、「惡」、「壼」、「斲」等字同理。[19]
一中中一 一廿田 比照「曲、西、丳」等字,應可允許「 」跨越「 」,故應可取「一廿田」,此取碼與此規律不一致。「壷」同理。[17]
一女尸 一尸 按對大部分倉頡編碼的規納,取碼精簡優先於保留轉角特徵(參見轉角分則),如「东」取「大木」不取「大女木」,此字取碼與此規律不一致。此不一致有可能是五代倉頡的取碼字形是將第二筆視作豎折折鉤而非撇折折鉤,故不適用「 」輔助字形而只能取「一女尸」(   );但漢文庫典呈現的圖片較似呈撇折折鉤形。六代將此字編碼改作「一尸」,似乎默認過去編碼有誤,或換了取碼字形。衍生字如「兮」、「污」、「巧」、「朽」等字同理。[20]
弓戈・卜人 弓戈・人竹、弓戈・竹人 官方把「癶」右半部的兩撇為「卜」的輔助字形,但「卜」的輔助字形並無兩撇的形狀;且若允許此輔助字形,相似字形「形」可能也得比照改為「一廿・卜竹」。若不接受此輔助字形,應取「弓戈・人竹」或「弓戈・竹人」亦有爭議,前者較符合先簡後繁原則,但會造成「發」等衍生字皆須跟著改變取碼。[15]
弓弓大 弓水 「弓大」即是「又」,為「水」的輔助字形,除「又」本字外皆應取「水」,不須分割作「弓大」,故「廴」應取「弓水」。六代將此字編碼改作「弓水」,似乎默認過去編碼有誤。[21]
  田十竹 田十 即使是針對筆劃突出的「 」字形取碼,比照「曲、西、丳」等字,應可允許「 」跨越「 」,故取「田十」即可,此取碼與此規律不一致。[17]
田一中中 田一中 比照「曲、西、丳」等字,應可允許「 」跨越「 」,故取「田一中」即可,此取碼與此規律不一致。[17]

難取碼字辨析

编辑

以下常用字,初學者常會感到困惑,不知如何下手取碼。我們特別在這裏分析它們,幫助讀者掌握。

例字 圖解 取碼 說明
  月尸尸 整體字。依「由上到下,由左至右」原則,先取凸起部份——上方隆起的「月」( );再取左邊的「尸」( );最後再取右邊的「尸」( )。
  尸尸山 整體字。以「由外而內」原則,先取外框左半的「尸」( );接着取外框右半的「尸」( );最後才取藏外外框中的凹陷部份「山」( )。
  一口弓口 由於這字連成一體,因此視作整體字。首碼是「一」麾下的「 」形輔根。常犯錯誤是把它誤當組合字,以爲字首是「可」,字身也是「可」。但正體中文日常字形裏,上方的「可」並無尾鈎,變成豎筆,並且與下方的橫筆相連,因此應視爲整體字,直接取「 」形作首碼。
  人人土 整體字,取碼的字形是兩「人」在上,而「土」在下,依「由上至下,由左至右」原則取「人人土」而不作「土人人」或「人土人」。個別朋友在書法時,也許會把「坐」的中豎寫得高一些,以求書法美觀;但這種細微的書寫習慣、書法結字,並不計算在取碼作業之內。可參考有關書法結字的說明。
  一卜女尸
  一中女尸
  尸手尸火
  竹女竹山  」視爲與上方相連,故此字爲整體字。依序取頭、二、三、尾碼,先取最左邊的「竹」( );再取連着頭碼撇尖下的「女」( );再取中間「白」部件的頭頂「竹」( );最後尾碼取末筆「山」( )。
  弓弓手人 整體字。先取最頂的「弓」( );下方三部份無明顯突出,視爲等高,自左而右取「弓」( );「手」( );最後取末尾的「人」( )。
 
 
三代:弓山水
五代:山弓水
三代將此字視作類似「齒」字的結構,先取上方的「弓」,其下字形再由外而內取「山」、「水」,總體取「弓山水」。五代取碼是強制先取外面的「山」( ),內部再由上而下取「弓」( )、「水」( ),總體取「山・弓水」。
  中中一中
  廿一一女 整體字。先取「廿」( );接着取內部的「一」、「一」;尾碼方面,「金」( )包在內,依包含省略原則,改取外邊的「女」( )。
  戈中戈中 屬多列形的字,最多取二・一・二碼。字首爲左邊的點,取「戈」( );次字首爲豎撇,取「中」( );最後剩下的次字身,是去掉前兩筆的剩餘部份,取頭尾兩碼(因次字首只有一碼,故次字身可以取兩碼),即是「戈中」(  )。
  一土戈中土 屬多列形的字,最多取二・一・二碼。字首爲左邊的「王」,取「一土」;次字首爲一點,取「戈」( );最後剩下的次字身,是「豎撇」與「王」部件,取頭尾兩碼(因次字首只有一碼,故次字身可以取兩碼),即是「中土」(  )。次字首、次字身的劃分,可比照上方「州」字的字首與次字首。
  竹難卜金 整體字,因下面的「 」字視爲與上部相連。先取外面的「 」,即「竹難」;再取裏面「 」的頂部,即「卜」( );最後末碼取「金」( )。

附註

编辑
  1. 《第五代倉頡輸入法手冊》於輔助字形一節未列出該字形。漢文庫典也明確收錄了「水弓水」和「水尸竹水」兩種「沒」字。
  2. 《第五代倉頡輸入法手冊·附錄一、第三代、第五代改碼字字碼對照表》
  3. 或說從「夊」,但「夊」爲「夂」的篆變,故字源仍歸「夂」。
  4. 《漢典》「育」字字形對比,不論中國大陸、香港、日本、韓國乃至《康熙》傳承字形,都寫作取「卜戈」之形。
  5. 《漢典》「黃」字字形對比,不論中國大陸、香港、韓國乃至《康熙》傳承字形,都寫作取「 」之形。
  6. 三代手冊於介紹字首時明言「八、人、父、𡗗、 、𦥯、 、龹、 等,當作上下分離的字首。」舉例中也列出了「癶」是字首,增訂版的舉例中還列出了「 」是字首。
  7. 五代手冊於介紹字首字身時提到按「於可橫向一次截然分離處分出字首」的原則,視「螽」的字首是「冬」(而非「夂」)(但另一例字「基」則以「其」為字首,與之似乎牴觸)。附錄中的〈第三代、第五代改碼字字碼對照表〉亦提到基於「五、取碼原則不一致者,使其統一」修改了「螽」、「凳」、「蠢」、「惷」、「憃」的編碼,把字首從「夂」、「癶」、「𡗗」改為「冬」、「登」、「春」、「舂」。從附錄〈第五代倉頡字碼表〉還可看到有些改碼表未提及的字做了類似更動,例如「啻」把字首從「 」改為「帝」。此外,有次網友去信詢問類似問題,沈紅蓮回覆亦肯認「蠢」、「啻」等字之取碼理由和「䡨」相同,即「⺶」、「𡗗」、「 」下緣皆不視為一刀分離,故於「差」、「春」、「帝」下平切出字首。(見信件#11)
  8. 將各種「冖頭」視為「 結構」尚有難以確認包覆範圍的問題,例如「癹」究竟是「『癶』下接『殳』」、「『癶』包覆『几』再下接『又』」、或「『癶』包覆『殳』」?會隨字體不同或書寫習慣差異而不同,造成取碼困擾。最新研究表明,包圍說是錯誤的,其實「春冬登」只是向下延伸,沒有包圍,它們在五代仍是上下分體。只是延伸確實會影響字首劃分,五代承認了這個現象。「帝」置上之後,「啻」的巾在很多字型已實質與上部相連,這是五代把「帝」劃分為「啻」的字首的真正原因。
  9. 9.0 9.1 「竷」字五代手冊取「卜十・竹手・水」,漢文庫典取「卜十・竹水・水」
  10. 參見信函內容#13及其他相關討論:[1][2]
  11. 相關討論:[3][4]
  12. 相關討論:[5]
  13. 相關討論:[6]
  14. 相關討論:[7][8]
  15. 15.0 15.1 此類字的取碼爭議主要與輔助字形「⺀」適用於何處有關,參見相關討論:[9][10][11]
  16. 相關討論:[12]
  17. 17.0 17.1 17.2 17.3 17.4 此類字之爭議主要與字根何時允許互相跨越的判定有關,參見相關討論:[13][14][15][16]
  18. 相關討論:[17][18]
  19. 相關討論:[19][20]
  20. 相關討論:[21]
  21. 相關討論:[22]
 例外字 倉頡輸入法
特別注意
版本差異