漢字印刷字形的整理 6-2

貳、漢字部件的探討

部件即是漢字的構形單位，當一個形體用來構造其它的字，成為所構字的一部分時，稱之為所構字的部件，如「相」、「心」是「想」的部件。在早期賴以建置字形資料庫的《漢字綜合索引字典》一書中，曾提出字根索引的概念。其實字根只是部件中的一種，在〈漢字部件規範〉【15】中，將字根稱為基礎部件，指的是在對漢字進行拆分時，那些最小的不再拆分的部件，如「想」中的「心」。至於那些可由兩個以上的基礎部件組成的部件則稱合成部件，如「想」中的「相」。另外，部件中可以獨立成字的稱成字部件，如「另」中的「口」；不能獨立成字的稱非成字部件，如「病」中的「㣺」。

〈漢字部件規範〉內附一個560個基礎部件的〈漢字基礎部件表〉，這些部件是根據GB 13000.1字集中的20902個漢字，逐字拆分而得，其中字形的拆分原則如下：

用本部件表進行部件拆分時，相離、相接可拆，交重不拆。如「明」拆分成「日」、「月」（相離），「名」拆分成「夕」、「口」（相接），「串」不可拆分成「中」、「中」（交重）。

字形符合理據的，進行有理據拆分；無法分析理據或形與源矛盾的，依形進行無理據拆分。如「分」拆分成「八」、「刀」（有理據拆分），「亦」拆分成「𢯎」及「苸」（無理據拆分）。

因在字中所處的部位不同而產生了筆畫變形或比例變化的部件，可與本部件表的相應部件認同使用。如「地」的左半部與「土」認同使用、「針」的左半部與「金」認同使用。

本部件表中的部件均為基礎部件，不得再行拆分。如「閪」不得再拆分為「𧘹」及「厂」兩個小部件，「田」不得再拆分為「囗」及「十」兩個小部件。

本部件表中的部件，可組合合成成字部件，但不得組合出非成字部件使用。如可用「自」、「田」、「丌」組合成「鼻」，作為部件用；但不得用「自」、「田」，組合出「自熷田」作為部件使用。

和〈漢字基礎部件表〉相比，〈交大字根集〉的字形拆分原則在1,3,4點是相同的，但是仍有兩個獨特的拆分原則：

首先將林樹字集的8532個漢字先橫拆，再將所得結果直拆，然後再拆解包含的字形得到了約三百五十餘字根。

其次基於實用的考量，希望儘量減少每個字平均的字根數和字根總數，最後得到一組496個字根的集合，在此集合下，平均每個漢字僅2.14字根即可組成。

實際比對這兩個字根集後，更能看出它們的異同：

既是林樹字根，也是漢字基礎部件者有315個。

為了減少每個字平均的字根數，林樹字根集有個「高頻字不拆」的原則，如「的」、「一」、「是」。林樹字根集的40個高頻字根中，只有13個是漢字基礎部件，如「一」。

由於林樹字根集只採橫連、直連、包含的方式拆分，所以有些字雖非漢字基礎部件，但卻是林樹字根，如「夾」、「爽」、「包」。

字根雖然定義成「最小的不再拆分的部件」，但是所謂的「最小」，各字根集的考量不同。如「象」是漢字基礎部件，「馬」卻不是，而兩者都是林樹字根；又如「貝」是林樹字根，「見」卻不是，而兩者都是漢字基礎部件。

除此之外，漢字基礎部件表多出來的字根主要是因為GB 13000.1字集的字數比林樹字集多，而且還包含簡化字。

字根的認定，是字形資料庫中令人困擾的問題之一。對林樹字根而言，它是在減少每個字平均的字根數和字根總數下求得平衡；對漢字基礎部件而言，它是在有理據拆分和無理據拆分中取得妥協。但是在將字形資料庫導入缺字解決方案後，我們必須向使用者說明字根的特性，有鑑於這兩個字根集的字根有不少是康熙部首，再加上大多數人對於康熙部首並不陌生，於是在1998年初我們重新定義林樹字根集的拆分原則：

不管字源或頻度上的考量，所有的康熙部首皆視為字根，不論是原形、變形或是簡化字根，如「人（�）」、「心（哌、宖）」、「穴」、「言（実）」。

以康熙部首為最基本的字根集，並且不管字源，將漢字直接視為圖形，然後再採用橫連、直連及包含的方式拆分，那些無法拆分的字形或部件即視為字根，如「平」、「夾」。

林樹字集的前40個高頻字形仍視為字根。

從構形上來看，字根代表最小而不再拆分的部件，但在《漢字綜合索引字典》中，它還扮演著「索引」的角色。林樹字集的8532個字，不管拆分符號，然後按照字根的書寫順序（字根序）排列，只有9組相同，如「只（叭）」、「員（唄）」；即使不管書寫順序，相同的也只有43組，如「部（陪）」、「保（咻）」。由於重複的機率非常低，所以可把字根序當作索引。

除了字根外，字形資料庫另一個困擾的問題是合成部件。〈漢字基礎部件表〉的部件使用規則中指出，該部件表中的部件，可組合合成成字部件，但不得組合出非成字部件使用。但是在我們的字形拆分規則中，並不考慮字源，而只是將漢字以橫連、直連及包含的方式拆分，這在字根式中固然簡單明瞭，但在改以構字式表達後，就會產生不少非成字的合成部件，如『修＝𡀞岙湗』中的「湗」，因為在字源上「修」拆分成「攸」及「𡁸」。林樹字集在改用構字式表達後，額外多造了629個Big5沒有的合成部件，情況更糟糕的是，一旦字集擴大後，雖然字根增加得很有限，但是非成字的合成部件卻會大量增加，而形成系統嚴重的負擔，如要拆完《中文大辭典》的49905個字，這類部件可能增加到5000個。

合成部件雖然有字源上的意義，但是在我們將漢字視為圖形拆分，並將字形資料庫用來解決缺字時，這類部件的作用已蛻變成簡化字形的表達，如字根式『堰＝土岙（匚㶊（日熷女））』可改寫成構字式『堰＝土岙匽』，字根序「土匚日女」可改寫成部件序「土匽」。由簡化字形表達的觀點來看，合成部件的取捨應考量部件的使用頻度，保留常用的，去除罕用的，如此不但可大量減低系統的負荷，而且不會妨礙到字形表達的簡易性。另外，有些重疊的部件，可改用方便符號表達而捨棄，如『瞿＝㶑目熷隹』、『俎＝瀬人岙且』、『桑＝灐又熷木』、『綴＝㿹岙灿又』。

1997年底，當時林樹字集的部件數共2150個，其中有1452個在Big5裡，另外的698個為造字。從使用頻度來看，假使希望99.9%的字都可由構字式組成（即留下0.1%的字用其他的方法解決，以增進系統效益），只須保留464個造字，然而捨棄的的207個造字中有27個是字根，再加上保留的464個造字中有22個是重疊部件，所以實際上保留的造字為464+27-22=469個，精簡後的林樹部件集共1921個。接著以林樹部件集為基礎，將字集擴大到Big5及簡化字總表，並且加上康熙部首214個、《中文字根孳乳表稿》【16】裡的聲母869個、形母265個，說文說首540個、漢字基礎部件560個，最後的部件集總數為2600個，包括801個字根及1799個合成部件，其中在Big5內的有1817個，造字783個。

這2600個部件的適用性如何？《中文大辭典》49905個字，可完全拆分的有48285個；《漢語大字典》54727個字，可完全拆分的有53227個。至於這兩個字集所剩的1620及1500個字形若要完全拆分，分別還要再加上1006及844個字根，然而目前的字根數也只不過是801個。由於這些字形有不少是隸定以前的文字，還需進一步的過濾。另外在喃文2999個字中，目前扣除手寫字跡模糊以致無法判定的109個字形外，其他可完全分解的有2709個字形，另外還有181個字形必須再補字根才可完全分解。