漢字印刷字形的整理 6-1

莊德明

壹、字形整理的回顧

目前電腦處理漢字的種種問題，最主要的原因是電腦中的漢字信息嚴重不足，其中又以字形的問題最需迫切解決。從1993年9月起，本實驗室即著手於漢字字形的整理工作，並陸續發表多篇論文【1,2,3,4,5,6】。由這些論文的發表順序中，可以發現早期的字形整理工作，主要在建立字形資料庫，其中重要的參考文件為《中文電腦基本用字研究》【7】、〈中國文字之結構模式及其分析〉【8】及《漢字綜合索引字典》【9】。

《中文電腦基本用字研究》一書，共蒐集8532個字，另有參考字形597個，統計共202萬2604字次，此即〈中文電腦基本用字表〉，以下簡稱林樹字集。由於往後在台灣並沒有更好的文字統計，所以我們仍以此字集為藍本。另外，〈中國文字之結構模式及其分析〉一文測試了十幾種常用的構字方式，並統計使用的頻度，發現只用橫連（岙）、直連（熷）及包含（㶊）三種組合方式，可以大幅簡化漢字的結構。採用這三種組合方式，將林樹字集逐字拆分後，得出496個字根，簡稱〈交大字根集〉。至於《漢字綜合索引字典》一書，則記錄著林樹字集8532個字的字根式，如『堰＝土岙（匚㶊（日熷女））』。這496個字根，也曾經針對《中文大辭典》【10】的49905個字形逐一核試，共可組合48713個字，其餘的1192個字不是非常罕用，就是隸定前的文字。值得注意的是，在作這些研究的時候，中文個人電腦尚未出現，更不用說字集及輸入法，字根在某一個意義上，就是輸入法，尤其當時的印刷打字，一字一鍵，相形之下，496鍵的字根鍵盤要合適多了。

字形資料庫的初期工作，是要在電腦中還原林樹字集及字根式。由於每個字形的字根數不一，如「堰」的字根數為4，「厘」為2；再加上部件的共用機會也不小，如部件「匽」為「堰」及「椻」共用，所以在字形資料庫中，我們以一系列的構字式代替字根式，如『堰＝土岙匽』、『匽＝匚㶊毁』、『毁＝日熷女』。構字式雖然大幅簡化了登錄工作，但是額外的代價為多造了629個Big5沒有的部件，如「𢳉（鎖）」、「�（嵕）」等。林樹字集登錄完成之後，我們發現每個字的構字式都是唯一的，所以構字式可用來識別字形。

以往電腦在面對漢字時，都採用數位編碼，首定定義一個字集，然後再針對字集裡的每一個字，給予一個數位碼。事實上漢字並不是一個封閉集合，而是開放集合，因為漢字在發展的過程中，同一個字在不同的時空下，常有不同的字形，如「藥」和「葯」等；再加上漢字在不同的應用範疇，常有創新字的需求，如化學元素及新發現的動植物。漢字既然是開放集合，所以無論字集如何擴充，缺字問題依然存在。相對於數位編碼，以構字式為主的構形編碼可能更適於漢字，因為構字式可透過有限的部件及拆分符號，來組出無限的字形。在面對電子古籍層出不窮的缺字時，對照目前的電腦內碼，如Big5、Unicode、CNS、CCCII等，構字式應該是一個更好的交換碼。構字式由於是從漢字的構形出發，所以只要有適量的部件，不管是台灣、大陸、日本、韓國及越南的漢字應該都可以處理。而且在應用上，構字式仍可和目前的電腦內碼共存，只要增加適量的部件及拆分符號，各種內碼即可相互轉碼，如CCCII轉到Big5，Big5的缺字則可用構字式表達。

由於林樹字集只有8532個字，為了進一步驗證構字式的實用性，我們繼續分析了Big5字集的13053個字、〈簡化字總表〉【11】的2235個字、《中文大辭典》的49905個字、《漢語大字典》【12】的54727個字、喃文的2999個字。在構字式驗證的過程中，構字式本身並沒什麼問題，有問題的是部件的數量，例如以林樹的部件集來表達《中文大辭典》用字，只能組合出42374個，若要再表達其餘的字形，至少還要再造4019個部件。為了減少部件的數量，我們在構字式外，另增部件序，部件序不需要拆分符號，只需在部件前後加上標示符號即可，如『牖＝䏁片戶甫㗱』。部件序提出後，字形表達的問題仍舊回到字根的層次，這在《中文大辭典》和《漢語大字典》中最為明顯，因為要把這兩個字集所剩的1620及1500個字形完全拆分，分別還要再加上1006及844個字根。由於這些字形有不少是隸定以前的文字，所以還需進一步的過濾。

除了字形的表達外，字形資料庫的另一個重點是異體字的標示，如「塼」和「磚」為異體字。林樹字集登錄完畢後，我們隨即進行異體字標示，初期以林樹字集內附的597個參考字形為主，接著加上2235個簡化字。然而異體字間的關係，比我們當初所認為的還要複雜。在《漢語大字典》的異體字表中，蒐集了29233個異體字，這些異體字的關係不只是全同及簡繁、還包括古今、訛字、不全同等，很遺憾的是這些關係在異體字表裡並沒有表達出來。由於釐清這些字形間的關係，需要相當多的人力，目前我們只輸入了整個異體字表。