仓颉输入法/特别注意

 例外字 仓颉输入法
特别注意
版本差异 

即使对仓颉输入法规则相当熟悉,实际取码输入时,仍可能因某些问题无法顺利打出想要的字。本章将探讨此类问题,包括字形问题编码讹误争议编码等。

字形问题

编辑

“字形问题”指:取码字形与萤幕显示字形(或习惯的印刷、手写字形)不同,按萤幕显示字形(或习惯的印刷、手写字形)取码输入却打不出字的现象。

仓颉系统最初的规划是统一以仓颉码作为输入、内码、渲染基础,因而显示字形和输入编码一致;如用者看到“ ”字形,并依照规则取码输入“戈十金金”,则系统必定渲染出“ ”字形;如想在萤幕上看到另一字形,比如“ ”,就必须输入另一组仓颉码“戈木木”。

然而现今主流的电脑平台,输入、内码、渲染并不互相绑定。输入码与内码对应可以是多对多(用选字方式处理);同一内码在萤幕上渲染出的字形也可因电脑字体而异。

例如,内码为万国码的话,“ ”、“ ”的内码都是“麻”(U+9EBB),仓颉输入法开发者根据台湾标准字形“ ”把“戈十金金”与“麻”(U+9EBB)的对应编入。如果中国大陆使用者输入“戈十金金”,系统会输出对应的“麻”(U+9EBB),但中国大陆字体会把“麻”(U+9EBB)渲染作“ ”,取码字形和显示字形不同。

仓颉系统的本质无此问题,且为避免重码而没有收录太多异体字形,如朱邦复当初只公布“ ↔戈十金金”,而未公布“ ↔戈木木”。之后朱邦复淡出资讯界,各系统开发者根据朱邦复公布的“仓颉码↔字形”对照表和万国码标准的“字形↔内码”对照表建立“仓颉码↔内码”的对应,于是系统中的仓颉输入法便没有“戈木木”与“麻”(U+9EBB)的对应关系,中国大陆使用者试图根据萤幕上看到的“ ”取码输入“戈木木”就打不出字。

令情况更糟的是,继朱邦复公布仓颉输入法以后,许多国家和地区才规范了标准字形(如台湾的国字标准字体、香港的常用字字形表、中国大陆的通用规范汉字表),这些标准字形和朱邦复取码的字形有不少差异,电脑字体大多按当地标准字形绘制,许多常用字在电脑显示的字形和取码字形不同,造成输入困扰。

除非改用仓颉系统的架构,否则任何形码输入法都可能发生这种“显示字形不同于取码字形”的问题。要解决这种困扰,开发者必须尽可能把“字”的各种异体字形编入输入法与内码的对应关系,也就是所谓的“容错码”。比如有些仓颉输入法开发者会把“戈十金金”和“戈木木”都对应到“麻”(U+9EBB)字,令使用者无论是在萤幕上看到“ ”或“ ”,取码“戈十金金”或“戈木木”都能打出“麻”(U+9EBB)字。然而,输入法开发者在容错的努力不一,于是各版本的仓颉输入法都有程度不一的“看字取码却打不出字”问题,使用者需要另行理解某些字的取码字形,才能顺利打出那些字。

下表依常见字形的仓颉编码排序(三、五代不同者并列之,并以三代优先),列出一些取码字形不同于常见字形的字例。所列字例一般可以类推,例如“反”有“一水”、“竹水”的字形差异,则含有“反”部件的字如“板”“叛”“坂”“皈”“版”“阪”“饭”“扳”“返”等字大抵也有同样问题;“神”左半部的“示”有“戈火*”、“一火*”的字形差异,则“社”、“祖”等字左半部的“示”大抵也有同样问题,读者可自行举一反三。

但类推时要注意,微软仓颉收录的大五字元(如“板”“饭”)多是沿用朱邦复的编码,即“取码字形编码”,大五未收而万国码加收的字元(如“坂”),则是微软自行按万国码收录的标准字形扩充编码,往往便符合“常见字形编码”;许多市面上通行的仓颉也有类似情况。朱邦复淡出资讯界后仍先后公布了一些编码,且处理了一定的容错问题,因此较晚开发的仓颉输入法(若是采用朱邦复的编码表)一般较少此类问题。

字形问题字例
字元 常见字形 常见字形编码 取码字形 取码字形编码 补充说明
  日弓・竹尸・难   日弓・弓・竹难
  日弓・尸竹・难   日弓・弓・竹难
月・戈大 月・水戈
月・一尸人 月・一一人 万国码加收了“”字。
  月・手口 月・土・口 依字源,“ ”是篆形写法,“”是楷书习惯写法。
月山・女一弓   月山・女一中 依字源,两者都是“鼎”的象形,无分正俗。香港用取码字形,台湾用常见字形。
  金・一・金廿 廿・金・月廿 依字源,“”字从“”从横卧的“”,两种写法的上方都是“水”的变形,无分正俗。
  金・一金田 廿金田一 依字源,“ ”字从“”从“”,常见字形较正统。
  金一大 廿大 五代仓颉只收“廿大”形。台湾标准字体中,含有“”部件的字如“”“”“”皆为“廿大”形,唯“”本字呈“金一大”形,导致按台湾标准字体编码的仓颉(如微软仓颉)的“关”本字只编入了“金一大”。
  金・一尸人 廿心竹人 依字源,“ ”字从“”从“”,常见字形较正统。
  金・田火・日 金田・日 依字源,“ ”是篆形写法,“”是楷书习惯写法。
木中・弓月金 木中・尸竹・金 依字源,“”字从“”,“”声。“刀”在右旁变形成“刂”,在右上角可写回“刀”形。取码字形较正统。
沿 沿 水・竹弓・口 沿 水・金口 依字源,“”字上方示意被水冲毁,不从“几”。
水・竹人・月 水・人・中月 ”是“”的讹字,大五两者皆收,但部分早期系统只收其一,后来才加收另一字。
  水・竹尸・水   水・弓・水 常见字形右上角的部件并非“弓”的辅助字形[1],应取码作“竹尸”。
土・月・竹弓 土・月・一弓 “殼”的俗字“壳”在“几”部件有一横,唯中国《简化字总表》去掉了那横。按台湾标准字形编码的仓颉(如微软仓颉)只编入了“土・月・一弓”。五代仓颉支援二者。
土人・尸山 土人・口山 两种写法的分别是形声字的声旁不同。
  三代:竹日卜卜
五代:竹日尸
竹日・心  ”形的字之异体,如“”等,但收得不齐全,仍有些字遭合并。另参“”字条。
  竹水・戈一 竹水・卜 依字源,“”字从“”,常见字形较正统。
  竹水・手 弓戈・手 依字源,“ ”字从“”从“”,常见字形较正统。
竹水・卜 竹水・人 同类字有:“”“”等。五代仓颉支援二者。依字源,“”和“”字从“”为正。
  竹・中・戈中   戈・中・戈中
  竹・一・竹弓   竹・一・弓大 仓颉系统最初取“竹一弓十”为编码字形,之后改用“竹一弓大”,而后“竹一弓大”、“竹一竹弓”。依字源,“竹一弓大”形为正。
  竹・一・口土   竹口・土 三代仓颉取“竹一口土”,五代仓颉取“竹口土”。[2]
竹女心戈 竹心・一 五代仓颉支援二者。依字源,“”字下从“”为正。
竹难心火 竹难卜火 万国码加收了“”字。
三代:竹难・卜心・女
五代:竹难・尸女・女
竹难・女卜・女 依字源,两者皆鼠脚象形,无分正俗。
  三代:竹卜・尸中
五代:竹尸・尸中
日戈・尸中 依字源,“ ”为盛载食物的器皿,常见字形较正统。另参“”字条。
  戈・木木   戈・十金・金 由于一些历史因素,许多系统“麻”本字作“戈・十金・金”但以“麻”为字首的衍生字取“戈木”。五代仓颉二者兼收。依字源,“”不从“林”,取码字形为正。
戈火・火田十 戈火・金田十
戈大水 戈大大 五代仓颉支援二者。依字源,“”字从“”不从“友”,以取码字形为正。
戈尸・卜竹尸 竹尸・卜竹尸 “户”本字因字源分离原则,万国码另收了“户”“戸”作为异体;衍生字如“”“”“”“”等则只收其一。五代仓颉支援二者。依字源,“”是象形字,取码字形较存古形。
  十月山女 十月一一 依字源,“ ”是原形写法,常见字形较正统。另外,基于“字源分离原则”,万国码收了“”作为“”的异体。
十金・竹田・水 十金・竹田・大 五代仓颉支援二者。依字源,“”字像窗框与窗花之形,取码字形较存古形。
十大・一女尸   十大・卜尸
  十人・竹水   十人・弓戈 依字源,“ ”字上从“”,下从“[3]。大部分电脑字体及至古书用字,“麦”字末笔多会出头,呈“夕”字形的极为罕见,几可视为错字。据此,“麦”字当取“木人竹水”,作偏旁时无论末笔是否延伸皆宜取“木水*”,但直到六代才支援从“來”的字形,未支援此字形前相对合理的取法是“十人竹水”及“十水*”。
十水・一田中   十弓・一田中
  十大戈日 十大日 依字源,“ ”与“”(“老”字之省形,通称“老字头”)相异,常见字形较正统。另外,基于“字源分离原则”,万国码收了“”作为“”的异体。
  十・廿金・一 十・廿金・卜 依字源,“”字从“”,常见字形较正统。
十田日女   中中・女 五代使用此取码字形(上部左右不出头,中部横“日”出头但不与“女”相接),三代为“中田中女”形;六代因修改规则改取“中田中女”。另参〈取码争议〉一节。
  中田中女 三代使用此取码字形(上部左右不出头,中部横“日”出头且与“女”相接),五代改为“中中・女”形。另参〈取码争议〉一节。
十女 十山 仓颉系统早期只支援“十山”形,2003年版五代仓颉支援二者。
大木・竹弓・水 大金・竹弓・水 同类字有:“”“”等。五代仓颉支援二者。依字源,“”字从“”。
大戈・月 卜戈・月 台湾标准字体编制者称,“”字顶部为倒转的“子”字,因此要以三笔写完。但多部经典字书皆把“”字编为肉部四画,许多流传多年的雕版书籍和碑帖也都把这部件写作四笔。其他地区皆未采此形[4]
大・中田女 大・中田山
中・金田十 中・火田十
中中一弓   中中一中 仓颉系统早期只支援“中中一中”形,2003年版五代仓颉支援二者。
中一・戈・人 女・戈・人
  一水   竹水 依字源,“”字从“”从“”,常见字形为正。
  一水月   一中月卜 五代新增了“水”的辅助字形“ ”,若依楷体写法,推论上“ ”形也应适用。
  一火・中田中 戈火・中田中 依字源,“ ”是原形写法,“”是楷书习惯写法。
一土・竹水 一土・人大 依字源,“”之右半应为“”(“竹水”)而非“”(“人大”)。
一土戈 竹土戈 依字源,“”字从“”从“”,常见字形为正。
一十竹难 竹十竹难 依字源,“”字从“”从“”,常见字形为正。
一十口 竹十口 依字源,“”以常见字形“⿱干口”为正。但“”“”“”“”“”等字所从的“⿱千口”是“𠯑”的异体,不能写作“⿱干口”。此外,俗写字如“”“”“”“”一般只写作“⿱千口”。
一大・心   竹大・心 依字源,“”字从“”,“”声,常见字形为正。
一大・心 一弓・心  ”不从“凡”,常见字形为正。
一大・口 竹大・口 万国码加收了“”字。依字源,“”字从“”,“”声,常见字形为正。
一中一弓 一女弓戈
  一弓戈心   一弓・心 取码字形是左上-右下型组合字“ ”,而非左右型组合字“ ”。由“㰷”取码“一心・弓人”而非“一弓・心・弓人”可知。
弓月手 弓月土 五代仓颉支援二者。依字源,“”是象形字,以取码字形较存古形。
弓火・山火・大 竹人・山火・大
  弓竹・弓竹竹 弓一・弓戈一 依字源,“ ”是原形写法,“”是楷书习惯写法。
弓大・竹卜女 弓大・竹卜一 五代仓颉支援二者。依字源,“”字从“”,以底横向左出头者为正。
弓一・心 弓尸・心 中横穿头者,包含省略原则不适用,故字首的尾码是“一”。中横不穿头者,套用包含省略原则,字首的尾码取“尸”。依字源,“”中间是一只手,如“”之顶部,以中横穿头者为正。
  人・中・竹木   人・中・人木 简化字“条”一般据中国字形取码“竹水木”,而非“人大木”。
人・一・日口 人・戈・日口 ”“”“”等字皆取“人一”开头的字形。一种判断方式是:“一”之后的笔划若为由左向右的横笔,书写时常因手顺将“一”写成“丶”,就会有取码为“人戈”的字形;反之则无。
  三代:人・一・日卜
五代:人・一・日尸
人・戈・日戈 依字源,“ ”省去撇笔),常见字形较正统。另外,基于“字源分离原则”,万国码收了“”作为“”的异体。
人・一・弓 人・戈・弓
  人・一・尸中 人・戈・弓戈 依字源,“ ”,常见字形较正统。
人・口・竹女 人・口・竹山 同类字有:“”“”“”等。
人女・尸中 人一・尸中 依字源,“”字从“”,以底横向左出头者为正。
心・一一 心・戈一 万国码加收了“”字,微软仓颉将此加收字误编码作“心卜”,详见微软仓颉的编码讹误一节。依字源,从“一一”者较吻合古形。
手・日・土 手・竹难・一 万国码加收了“”字。
手・火月竹 手・火月手 万国码加收了“”字。
手一・田十竹 手一・田卜戈 另参“毋”的字形问题。
手・口・大尸 手・口・尸竹 五代仓颉支援二者。依字源,“”字不从“另”。
手尸・人大 土尸・人大 五代仓颉支援二者。
口・一土 口・竹土 五代仓颉支援二者。依字源,“”字从“𡈼”,以取码字形为正。
  尸・水・竹手   三代:尸・卜卜・手
五代:尸・水・竹手
由于“水”的辅助字形“ ”是五代才新增,取码字形“ ”在三代仓颉须分开取码。若是对“ ”字形取码,三、五代皆可取作“尸水竹手”。同类字有:“”等。
  尸竹・日竹戈 三代:弓山・戈
五代:弓日竹戈
依字源,“”字不从“刀”,取码字形较正统。
  尸竹・日竹山 弓日竹山 依字源,“”字不从“刀”,取码字形较正统。
  尸竹・日山   弓日山
  尸竹・月山金 弓月山金 依字源,“”字不从“刀”,取码字形较正统。注意“”字不从“负”,右上从“刀”,详见本表“”字条。
  尸竹・尸竹竹 尸一・尸戈一 依字源,“ ”是原形写法,“”是楷书习惯写法。
尸一 弓一一
尸口・一土 尸口・竹土 五代仓颉支援二者。依字源,“”字从“𡈼”,以取码字形为正。
廿・日・一田 廿・月山・田
  廿金・尸山 廿金・口山 依字源,“”字从“”,“”声,两种写法的下方都是“邑”的变形。
廿竹・一 廿手・一 同类字有:“”“”“”等。
  廿・一・田金   廿・一中金 台湾标准字形“ ”之编制者称此写法乃依《说文》解释“田”中竖上方不穿头。但《说文》之解释不符其篆形,在文字学界亦已公认有误。其他地区皆未采此形[5]
  廿田金   廿中田金 参“黄”字。
山・大・火 山・一・火 五代仓颉支援二者。依字源,“”字从“”从“”,不从“灰”。
山一 山竹 2003年版五代仓颉支援二者。
  田十竹   田十 2003年版五代仓颉支援二者。“ ”的编码有争议,参〈争议编码〉一节。
卜月・一土 卜月・竹土 五代仓颉支援二者。依字源,“”字从“𡈼”,以取码字形为正。
卜・戈木 卜・戈十金 同类字有:“”等。五代仓颉支援二者。依字源,“”字不从“木”,以取码字形为正。
卜戈・中田人 卜戈・竹难人 万国码加收了“”字。
卜大・一・竹竹 卜竹・竹竹竹 万国码加收了“”字,微软对此加收字误编码作“卜廿竹竹”,详见微软仓颉的编码讹误一节。依字源,“”之上方应为“”。
卜大・一・竹一 卜竹・竹手一 万国码加收了“”字,微软将此加收字误编码为“卜廿竹一”,详见微软仓颉的编码讹误一节。依字源,“”之上方应为“”。
卜心・竹弓 卜心・竹山 同类字有:“”等。五代仓颉支援二者。依字源,“”字从“”,以取码字形为正。
三代:卜口・月・月大
五代:卜大・月山金
三代:卜口・月・月弓
五代:卜弓・月山金
右下作“ ”不适用包含省略原则;右下作“”者适用包含省略原则,取“竹弓戈”。依字源,“𦝠”不从“凡”,以取“卜大”者为正。
卜・口・月弓 卜・口・月山 同类字有:“”等。五代仓颉支援二者。依字源,“”字从“”,以取码字形为正。

编码讹误

编辑

仓颉输入法由于很早就开放,很多版本是人们自行开发,未与朱邦复团队确认。这些开发者或因不慎,或因对仓颉编码规则不够熟悉,为某些字设置了不符合仓颉输入法的编码规则的编码。

有些仓颉输入法版本特别流行,其编码错误影响也大,以下特作介绍。

微软仓颉的编码讹误

编辑

Windows为目前中文电脑之主流操作系统,其内建的中文输入法也最多人用。今日习称的“三代仓颉”、“微软仓颉”多是指Windows系统内建的仓颉输入法或新仓颉输入法。

早期繁体中文版的微软Windows系统用收字较少的大五作内码,这万三多字的仓颉码是沿用朱邦复公布的编码,比较准确。Windows 2000以后的版本,开始支援万国码时,非大五字(多为简化字及罕用字)的仓颉编码是由微软人员自行扩充,这些编码的拟定并没有与朱邦复团队沟通,于是有些字的编码不符合仓颉输入法的规则。

下表依标准仓颉编码(以三代为主)排序,举出一些编码讹误的字例:

微软仓颉编码讹误表
例字 标准仓颉编码 微软仓颉编码 补充说明
日・廿・中大 日・廿・大月 违反“中月大)”字的拆码,详见特殊字规则。
月月・尸一・竹 月月・尸卜・竹 误把“ ”当成是“卜”的辅助字形。实际上,“ ”应拆作“戈一”。
月山・中月大 月山・大月 违反“中月大)”字的拆码,详见特殊字规则。
金・竹木・尸 金・竹木・竹 违反“弓竹尸)”字的拆码。“”为“”的异体字。
𨭱 金・十戈・土 金・土戈・土 违反“𢦏十戈)”的拆码。详见区块分则中的“哉”字例。
金・廿・中大 金・廿・大月 违反“中月大)”字的拆码。
木・廿・中大 木・廿・大月 违反“中月大)”字的拆码。
水・戈女水 水・女戈水 字身“”的点笔在右上角,应当视为位于最高位,要先取这点,不可以先取“ ”;同类字有“”等。微软编码违反了拆字取码时要注意的地方
水・人一金 水・竹一金 违反“人一金)”字的拆码。
火月・弓木 戈月・弓木  ”应一次过取,不应拆作“   ”。微软编码违反精简原则
火・大女金 火・手木 所取的字根为“    ”。字身部分若独立拆码,全取是“    ”,唯作字身时第三码省略。微软编码违反了转角分则,在“ ”和“ ”的转角位断开。
火・尸一・竹 火・尸卜・竹 误把“ ”当成是“卜”的辅助字形。
竹木・尸・卜手 竹木・尸・水手 采用五代中“水”的新辅助字形“ ”,而与“尸・卜卜・手)”的拆码不一致。
竹十・尸一・一 竹十・尸卜・卜 误把“ ”当成是“卜”的辅助字形。
竹十・尸一・一 竹十・尸卜・卜 误把“ ”当成是“卜”的辅助字形。
竹廿・人竹人 竹月廿人 错误分割字形。这字可拆作字首“”和字身“”,微软编码者却误当它是整体字。详见汉字分割规则。
竹女・月山山 竹女・月山 违反“月山竹山)”字的拆码。
竹田・土廿十 竹田・土廿戈 疑为手民之误,在设定尾码的编码时按错键。
戈木尸 戈木木;
戈木尸
“木”的辅助字形“ ”和“ ”后无钩,故“戈木木”这编码并不合理。
戈戈一 戈卜 误把“ ”当成是“卜”的辅助字形。
戈十 戈一 同类字有:“线”等。微软编码违反了特殊字原则。
戈大尸戈 戈大尸戈;
戈大弓戈
“戈大弓戈”编码违反了转角分则,在“ ”的转角位断开。
戈一・木大 卜・木大;
戈一・木大
误把“ ”当成是“卜”的辅助字形。
戈一・土・田金 卜・土・田金;
戈一・土・田金
误把“ ”当成是“卜”的辅助字形。
戈一・戈竹・口 卜・戈竹・口;
戈一・戈竹・口
误把“ ”当成是“卜”的辅助字形。
戈一・中 卜・中;
戈一・中
误把“ ”当成是“卜”的辅助字形。
戈一・一田木 卜・一田木;
戈一・一田木
误把“ ”当成是“卜”的辅助字形。
戈一・手大・大 卜・手大・大;
戈一・手大・大
误把“ ”当成是“卜”的辅助字形。
戈一・口竹山 卜・口竹山;
戈一・口竹山
误把“ ”当成是“卜”的辅助字形。
戈一・卜・口火 卜・卜・口火;
戈一・卜・口火
误把“ ”当成是“卜”的辅助字形。
戈一・卜・田火 卜・卜・田火;
戈一・卜・田火
误把“ ”当成是“卜”的辅助字形。
戈・弓女 戈・弓 ”的第二笔并非“弓”的辅助字形,且此偏旁非由尾部作“ ”的字形变形,不能视为“山”的辅助字形,故只能取“戈弓女”。微软的“”字首编码不统一,有作“戈弓”“戈山”、或二者皆有,皆属错误。
戈女・人 戈弓・人;
戈山・人
戈女大水 火大水;
戈女大水
”只有五画,笔画“ ”在转角处没有断开作两笔。将其上方看作“ ”而取“火大水”并不合理,违反了转角分则
中戈一 卜中;
戈一中
”的竖笔最高,根据“由上至下,由左至右”原则,应先取较高者,“中戈一”才正确。
中一・土 卜中・土
中戈尸 中尸;
心人
1987年版五代曾将“”视作复合字取首尾码“中尸”,但1999年版五代取消,全字由左至右取“中戈尸”,作字首时只取首尾码,因此仍为“中尸”。微软编码不统一,有作“中尸”,或“戈尸”,或二者皆有。“戈尸”系列除字首错误,字身尚有很多错码,如:心人)、戈尸)、戈尸一)、戈尸人)、戈尸一一一)、戈尸一十)、戈尸木竹)、戈尸口)……疑似字码与字元的对应关系遭移位。
中尸・日 中尸・日;
戈尸・日
中尸・木 中尸・木竹
一土・口女心 一土・口山心 误把“女”的辅助字形“ ”当成是“山”的辅助字形。只有原本写作“ ”,但因书法美观而让右屈钩写作“ ”的笔画才会取“山”。
一山・尸戈・廿 一山・尸一・廿 与“大山・尸戈・廿)”字的拆码不一致。
弓一・弓中 弓大・竹一・中 错误分割字形,或疑据“⿺廴⿰𠂛阝”字形取码。
人・戈・弓戈 人弓・一一戈 错误分割字形。这字属多层形,字首为“ ”,次字首为“ ”,其余部分为次字身。微软编码者却误当“”是字首。详见汉字分割规则。
人・一心 金;
人・一心
微软的“”字首,多为“人心”和“”两者皆有。然而“”并非“金”的辅助字形,作字首时只能取“人心”。发明人朱邦复解释过,不把“”视作“金”的辅助字形,是因为要避免正、简字经常重码。许多金旁的字,简化了的就只有这字首。要是每次输入时,都变成重码,将带来许多不便。
人心・尸一・竹 人心・尸卜・竹 误把“ ”当成是“卜”的辅助字形。
人・卜竹・竹 人・卜廿竹 错误分割字形。这字的字身“”可再拆作次字首“”和次字身“”。微软编码者却误当“”是整体字。详见汉字分割规则。
心戈一 心卜 误把“ ”当成是“卜”的辅助字形。微软另收异体“”字,但编码也有问题,见编码字形差异
心人 心人;
人心卜口女
所取的字根为“  ”。而“人心卜口女”应是“”或“镶”的编码。
口一・尸一・竹 口一・尸卜・竹 误把“ ”当成是“卜”的辅助字形。
口・卜心・金 口・卜心・一 误把“ ”当成是“廿”的辅助字形。见下方“”字。
尸火・中月大 尸火・大月 违反“中月大)”字的拆码,详见特殊字规则。
三代:弓女尸一
五代:尸一
弓尸・一 2003年版五代加了辅助字形“ ”处理“”字。若没有此辅助字形,理应视作整体字取码“弓女尸一”。微软视作组合字取码不正确。
廿・竹女心 廿・竹山心 误把“女”的辅助字形“ ”当成是“山”的辅助字形。
廿中・一十 中一卜手 此字有许多异体字,微软收了“”(中一卜手)、“”(廿手)二字;仓颉系统则收了“”(廿中・手)、“”(廿中・一十)、“”(廿手)等。由于“ ”是“廿”的辅助字形,不论怎么写,都不可以拆作“中一卜”,否则就违反了精简原则
女・口女心 女・口山心 误把“女”的辅助字形“ ”当成是“山”的辅助字形。
女・廿中大 女・廿大月 违反“中月大)”字的拆码。
田・口女心 田・口山心 误把“女”的辅助字形“ ”当成是“山”的辅助字形。
田・尸一・竹 田・尸卜・竹 误把“ ”当成是“卜”的辅助字形。
田卜卜中 田尸中 误用五代仓颉编码。在三代仓颉中,“ ”应拆成“卜卜”。它在五代仓颉里才新增作“尸”的辅根。
卜竹・竹・竹竹 卜廿竹竹 错误分割字形。这字可拆作字首“”和字身“”,微软编码者却误当它是整体字。详见汉字分割规则。微软另收异体“”字,但编码也有问题,见编码字形差异
卜竹・竹手一 卜廿竹一 错误分割字形。这字可拆作字首“”和字身“”,微软编码者却误当它是整体字。详见汉字分割规则。微软另收异体“”字,但编码也有问题,见编码字形差异
卜心・廿金 卜心・廿一 误把“ ”当成是“廿”的辅助字形。事实上,只有“ ”才是“廿”的辅助字形。“”应拆“廿金”。
卜尸・人・卜人 卜尸・卜・人人  ”部件移了位。

全字库仓颉的编码讹误

编辑

中文全字库是中华民国国家发展委员会建立的中文交换码标准(CNS11643)所附的仓颉码。由于为国家标准且编码表开放,有自制的仓颉输入法会使用此编码表,通称“全字库仓颉”或“中标仓颉”。微软亦于Windows 2007年以后的内建仓颉输入法支援此编码表(可在仓颉输入法的[字元集设定]勾选[允许使用中文标准交换码全字库(CNS11643)所定义的字根输入])。此数据库所收字集庞大,有许多仓颉码是自行编入,而非采用朱邦复的编码表,因而有一些并不符合仓颉输入法的规则。使用者如有疑义可联络全字库客服提供建议。

争议编码

编辑

有些字的编码虽是由朱邦复团队亲自釐定,但其作法与其他相似字颇不一致,因而一般认为可能有疏失或错误。一些仓颉输入法开发者为便利使用者,会修改有争议的官方编码,或加上容错码。

五代字首分割争议编码

编辑

因实务考量,“撇捺形状”或“盖子形状”字形,如“𠆢”、“八”、“大”、“夭”、“天”、“冖”、“宀”、“癶”、“𡗗”、“龹”、“夂”、“ ”、“ ”、“ ”、“ ”、“𦥯”等等,虽轻微遮住下部字形,仍统一将其下缘视为可一刀分离(即“ 结构”一律视为“ 结构”;为便讨论,以下简称“冖头分离”),如“贫”之字首取“八”不取“分”、“奮”之字首取“大”不取“奞”、“喬”之字首取“夭”不取“呑”等等。

三代手册有明确提及上述判定原则[6],五代手册则未见相关叙述。考察实际字例,五代手册大部分字皆遵从“冖头分离”,但有些“癶”、“𡗗”、“夂”、“ ”字形不再适用(改视为“ 结构”),例如“蠢”字首由“𡗗”改为“春”,“螽”字首由“夂”改为“冬”[7];然而五代改码不统一,五代手册、汉文库典有些同类字并未比照,例如“㚅”、“𣔽”、“癹”、“䆐”、“𩶓”等字仍适用“冖头分离”取“夂”、“癶”、“𡗗”为字首,而非取“ ”、“癸”、“ ”、“秦”、“ ”为字首。[8]

六代仓颉相关字有些改用新规则处理,而绕过了此问题,其他字都取消了五代变动,比照三代适用“冖头分离”。民间自行开发的五代仓颉输入法,有些沿用五代手册的处理方式,但相关争议字可能改为适用“冖头分离”,或兼容两种做法。

以下分类列出五代手册及汉文字典相关字的编码,包括改为不适用“冖头分离”而改动编码的字,以及仍适用“冖头分离”的字:

五代字首分割争议字形列表
主字形 更动字首 非冖头分离 冖头分离
  竹十・火
卜十・竹手・水[9] 卜十・竹水・水[9]
木・竹水・金
𨼇弓中・竹水・一
𠏤人・竹水・金
𥫔卜十・竹水・金
竹口・水
竹口・心
十・竹口・心
竹田・心
卜・竹田・水
𨙅卜・竹田・人
竹卜・中戈・戈
竹卜・弓
其他 竹水・一・竹一
卜十・竹水・金
  木・弓廿・弓
弓廿・竹弓
𤼶弓廿・大尸
𤼷弓廿・廿
其他 𤼴弓人・土戈・廿
弓人・竹弓・水
𣔽弓人・一大・木
𥙊弓人・一一・火
  𪃣手日・竹日火
手日・中戈・戈
𧎌手日・中一戈
手日・心
𣌠手日・手日・日
𡆂口・手日・戈
𨙥卜・手日・戈
𡏑手木・土 手大・竹木・木
𧢆手難・月山山
𦦾手難・土・弓戈
𪆊手難・竹日火
𦦱手難・一十難
手難・心
其他 𥘿手大・一・一火
𠒏手大・一・一山
𩶓手大・弓田・火
  卜月・口
卜月・女
其他

其他争议编码

编辑

以下据五代仓颉编码排序,列出一些较有争议的例子:

争议编码列表
字元 字形 五代仓颉编码 其他仓颉编码 补充说明
田一 辅助字形独自成字时,普遍需要分割取码。沈红莲认为“日”与“曰”视为同形,故视为重复字处理。[10]
月一 月山 比照“目”取码“月山”而非“月一”,“囗”亦应取码“月山”而非“月一”。六代将此字编码改作“月山”,似乎默认过去编码有误。[11]
丿 丿 中竹 辅助字形独自成字时(包含单笔画),普遍需要分割取码。
竹火 火戈 “火戈”之取法较符合先简后繁原则。[12]
竹竹・尸中戈 竹竹・尸卜 最初设计时可能认为分离的竖和点不适用“卜”的字形,但后来为“鸟”取“心卜尸一”又似乎与此矛盾。[13]
竹卜 卜竹、中金 “忄”中竖明显突出,似乎可先取“卜”形,或比照“小”取“中金”。[14]
人戈 辅助字形独自成字时(包含单笔画),普遍需要分割取码。
戈戈一 卜一 上部二点为“卜”的辅助字形,应比照“斗”“头”等字适用之。六代将此字编码改作“卜一”,似乎默认过去编码有误。

[15]

竹人、人竹 辅助字形独自成字时,普遍需要分割取码。此字可能为避免字根互相跨越及保留“交叉”的字形特征而不分割取码。六代将此字编码改作“竹人”(但按由上而下或由左而右之取码原则似乎应取“人竹”)。[16]
中中 辅助字形独自成字时(包含单笔画),普遍需要分割取码。
中中・女 十田日女 按台湾标准字形,视为整体字应较合理。比照“曲、西、丳”等字,应可允许“ ”跨越“ ”。[17]
中尸一一 廿廿廿一 比照“㐀”。当初可能未想到可利用“ ”(廿)。[18]

认为没有问题的观点:比较没有 同字 拆成不同部件的问题. 非[全取 左 右 : 中一一一 尸卜] 145尾,韭[全取 连体 : 中尸一一卜一一] 123尾.

中田中一 中田一 比照“曲、西、丳”等字,应可允许“ ”跨越“ ”,故取“中田一”即可,此取码与此规律不一致。[17]
一中中一 一中中廿 似乎于当初取码时未考虑到“廿”的辅助字形。衍生字如“啞”、“惡”、“壼”、“斲”等字同理。[19]
一中中一 一廿田 比照“曲、西、丳”等字,应可允许“ ”跨越“ ”,故应可取“一廿田”,此取码与此规律不一致。“壷”同理。[17]
一女尸 一尸 按对大部分仓颉编码的规纳,取码精简优先于保留转角特征(参见转角分则),如“东”取“大木”不取“大女木”,此字取码与此规律不一致。此不一致有可能是五代仓颉的取码字形是将第二笔视作竖折折钩而非撇折折钩,故不适用“ ”辅助字形而只能取“一女尸”(   );但汉文库典呈现的图片较似呈撇折折钩形。六代将此字编码改作“一尸”,似乎默认过去编码有误,或换了取码字形。衍生字如“兮”、“污”、“巧”、“朽”等字同理。[20]
中戈 辅助字形独自成字时(包含单笔画),普遍需要分割取码。
弓戈・卜人 弓戈・人竹、弓戈・竹人 官方把“癶”右半部的两撇为“卜”的辅助字形,但“卜”的辅助字形并无两撇的形状;且若允许此辅助字形,相似字形“形”可能也得比照改为“一廿・卜竹”。若不接受此辅助字形,应取“弓戈・人竹”或“弓戈・竹人”亦有争议,前者较符合先简后繁原则,但会造成“發”等衍生字皆须跟着改变取码。[15]
弓弓大 弓水 “弓大”即是“又”,为“水”的辅助字形,除“又”本字外皆应取“水”,不须分割作“弓大”,故“廴”应取“弓水”。六代将此字编码改作“弓水”,似乎默认过去编码有误。[21]
  田十竹 田十 即使是针对笔划突出的“ ”字形取码,比照“曲、西、丳”等字,应可允许“ ”跨越“ ”,故取“田十”即可,此取码与此规律不一致。[17]
田一中中 田一中 比照“曲、西、丳”等字,应可允许“ ”跨越“ ”,故取“田一中”即可,此取码与此规律不一致。[17]

难取码字辨析

编辑

以下常用字,初学者常会感到困惑,不知如何下手取码。我们特别在这里分析它们,帮助读者掌握。

例字 图解 取码 说明
  月尸尸 整体字。依“由上到下,由左至右”原则,先取凸起部分——上方隆起的“月”( );再取左边的“尸”( );最后再取右边的“尸”( )。
  尸尸山 整体字。以“由外而内”原则,先取外框左半的“尸”( );接着取外框右半的“尸”( );最后才取藏外外框中的凹陷部分“山”( )。
  一口弓口 由于这字连成一体,因此视作整体字。首码是“一”麾下的“ ”形辅根。常犯错误是把它误当组合字,以为字首是“可”,字身也是“可”。但繁体中文日常字形里,上方的“可”并无尾钩,变成竖笔,并且与下方的横笔相连,因此应视为整体字,直接取“ ”形作首码。
  人人土 整体字,取码的字形是两“人”在上,而“土”在下,依“由上至下,由左至右”原则取“人人土”而不作“土人人”或“人土人”。个别朋友在书法时,也许会把“坐”的中竖写得高一些,以求书法美观;但这种细微的书写习惯、书法结字,并不计算在取码作业之内。可参考有关书法结字的说明。
  一卜女尸
  一中女尸
  尸手尸火
  竹女竹山  ”视为与上方相连,故此字为整体字。依序取头、二、三、尾码,先取最左边的“竹”( );再取连着头码撇尖下的“女”( );再取中间“白”部件的头顶“竹”( );最后尾码取末笔“山”( )。
  弓弓手人 整体字。先取最顶的“弓”( );下方三部分无明显突出,视为等高,自左而右取“弓”( );“手”( );最后取末尾的“人”( )。
 
 
三代:弓山水
五代:山弓水
三代将此字视作类似“齿”字的结构,先取上方的“弓”,其下字形再由外而内取“山”、“水”,总体取“弓山水”。五代取码是强制先取外面的“山”( ),内部再由上而下取“弓”( )、“水”( ),总体取“山・弓水”。
  中中一中
  廿一一女 整体字。先取“廿”( );接着取内部的“一”、“一”;尾码方面,“金”( )包在内,依包含省略原则,改取外边的“女”( )。
  戈中戈中 属多列形的字,最多取二・一・二码。字首为左边的点,取“戈”( );次字首为竖撇,取“中”( );最后剩下的次字身,是去掉前两笔的剩余部分,取头尾两码(因次字首只有一码,故次字身可以取两码),即是“戈中”(  )。
  一土戈中土 属多列形的字,最多取二・一・二码。字首为左边的“王”,取“一土”;次字首为一点,取“戈”( );最后剩下的次字身,是“竖撇”与“王”部件,取头尾两码(因次字首只有一码,故次字身可以取两码),即是“中土”(  )。次字首、次字身的划分,可比照上方“州”字的字首与次字首。
  竹难卜金 整体字,因下面的“ ”字视为与上部相连。先取外面的“ ”,即“竹难”;再取里面“ ”的顶部,即“卜”( );最后末码取“金”( )。

附注

编辑
  1. 《第五代仓颉输入法手册》于辅助字形一节未列出该字形。汉文库典也明确收录了“水弓水”和“水尸竹水”两种“没”字。
  2. 《第五代仓颉输入法手册·附录一、第三代、第五代改码字字码对照表》
  3. 或说从“夊”,但“夊”为“夂”的篆变,故字源仍归“夂”。
  4. 《汉典》“育”字字形对比,不论中国大陆、香港、日本、韩国乃至《康熙》传承字形,都写作取“卜戈”之形。
  5. 《汉典》“黄”字字形对比,不论中国大陆、香港、韩国乃至《康熙》传承字形,都写作取“ ”之形。
  6. 三代手册于介绍字首时明言“八、人、父、𡗗、 、𦥯、 、龹、 等,当作上下分离的字首。”举例中也列出了“癶”是字首,增订版的举例中还列出了“ ”是字首。
  7. 五代手册于介绍字首字身时提到按“于可横向一次截然分离处分出字首”的原则,视“螽”的字首是“冬”(而非“夂”)(但另一例字“基”则以“其”为字首,与之似乎抵触)。附录中的〈第三代、第五代改码字字码对照表〉亦提到基于“五、取码原则不一致者,使其统一”修改了“螽”、“凳”、“蠢”、“蠢”、“憃”的编码,把字首从“夂”、“癶”、“𡗗”改为“冬”、“登”、“春”、“舂”。从附录〈第五代仓颉字码表〉还可看到有些改码表未提及的字做了类似更动,例如“啻”把字首从“ ”改为“帝”。此外,有次网友去信询问类似问题,沈红莲回复亦肯认“蠢”、“啻”等字之取码理由和“䡨”相同,即“⺶”、“𡗗”、“ ”下缘皆不视为一刀分离,故于“差”、“春”、“帝”下平切出字首。(见信件#11)
  8. 将各种“冖头”视为“ 结构”尚有难以确认包覆范围的问题,例如“癹”究竟是“‘癶’下接‘殳’”、“‘癶’包覆‘几’再下接‘又’”、或“‘癶’包覆‘殳’”?会随字体不同或书写习惯差异而不同,造成取码困扰。最新研究表明,包围说是错误的,其实“春冬登”只是向下延伸,没有包围,它们在五代仍是上下分体。只是延伸确实会影响字首划分,五代承认了这个现象。“帝”置上之后,“啻”的巾在很多字型已实质与上部相连,这是五代把“帝”划分为“啻”的字首的真正原因。
  9. 9.0 9.1 “竷”字五代手册取“卜十・竹手・水”,汉文库典取“卜十・竹水・水”
  10. 参见信函内容#13及其他相关讨论:[1][2]
  11. 相关讨论:[3][4]
  12. 相关讨论:[5]
  13. 相关讨论:[6]
  14. 相关讨论:[7][8]
  15. 15.0 15.1 此类字的取码争议主要与辅助字形“⺀”适用于何处有关,参见相关讨论:[9][10][11]
  16. 相关讨论:[12]
  17. 17.0 17.1 17.2 17.3 17.4 此类字之争议主要与字根何时允许互相跨越的判定有关,参见相关讨论:[13][14][15][16]
  18. 相关讨论:[17][18]
  19. 相关讨论:[19][20]
  20. 相关讨论:[21]
  21. 相关讨论:[22]
 例外字 仓颉输入法
特别注意
版本差异