文獻處理實驗室 論文目錄

「電子古籍中的文字問題研討會」 1999年6月14-16日

漢字印刷字形的整理

Page 2 of 6

貳、漢字部件的探討

部件即是漢字的構形單位,當一個形體用來構造其它的字,成為所構字的一部分時,稱之為所構字的部件,如「」、「」是「」的部件。在早期賴以建置字形資料庫的《漢字綜合索引字典》一書中,曾提出字根索引的概念。其實字根只是部件中的一種,在〈漢字部件規範〉【15】中,將字根稱為基礎部件,指的是在對漢字進行拆分時,那些最小的不再拆分的部件,如「」中的「心」。至於那些可由兩個以上的基礎部件組成的部件則稱合成部件,如「」中的「」。另外,部件中可以獨立成字的稱成字部件,如「」中的「」;不能獨立成字的稱非成字部件,如「」中的「」。

〈漢字部件規範〉內附一個560個基礎部件的〈漢字基礎部件表〉,這些部件是根據GB 13000.1字集中的20902個漢字,逐字拆分而得,其中字形的拆分原則如下:

  1. 用本部件表進行部件拆分時,相離、相接可拆,交重不拆。如「」拆分成「」、「」(相離),「」拆分成「」、「」(相接),「」不可拆分成「」、「」(交重)。
  2. 字形符合理據的,進行有理據拆分;無法分析理據或形與源矛盾的,依形進行無理據拆分。如「」拆分成「」、「」(有理據拆分),「」拆分成「B」及「」(無理據拆分)。
  3. 因在字中所處的部位不同而產生了筆畫變形或比例變化的部件,可與本部件表的相應部件認同使用。如「」的左半部與「」認同使用、「」的左半部與「」認同使用。
  4. 本部件表中的部件均為基礎部件,不得再行拆分。如「P」不得再拆分為「A」及「」兩個小部件,「」不得再拆分為「」及「」兩個小部件。
  5. 本部件表中的部件,可組合合成成字部件,但不得組合出非成字部件使用。如可用「」、「」、「」組合成「」,作為部件用;但不得用「」、「」,組合出「自韖」作為部件使用。

和〈漢字基礎部件表〉相比,〈交大字根集〉的字形拆分原則在1,3,4點是相同的,但是仍有兩個獨特的拆分原則:

  1. 首先將林樹字集的8532個漢字先橫拆,再將所得結果直拆,然後再拆解包含的字形得到了約三百五十餘字根。
  2. 其次基於實用的考量,希望儘量減少每個字平均的字根數和字根總數,最後得到一組496個字根的集合,在此集合下,平均每個漢字僅2.14字根即可組成。

實際比對這兩個字根集後,更能看出它們的異同:

  1. 既是林樹字根,也是漢字基礎部件者有315個。
  2. 為了減少每個字平均的字根數,林樹字根集有個「高頻字不拆」的原則,如「」、「」、「」。林樹字根集的40個高頻字根中,只有13個是漢字基礎部件,如「」。
  3. 由於林樹字根集只採橫連、直連、包含的方式拆分,所以有些字雖非漢字基礎部件,但卻是林樹字根,如「」、「」、「」。
  4. 字根雖然定義成「最小的不再拆分的部件」,但是所謂的「最小」,各字根集的考量不同。如「」是漢字基礎部件,「」卻不是,而兩者都是林樹字根;又如「」是林樹字根,「」卻不是,而兩者都是漢字基礎部件。
  5. 除此之外,漢字基礎部件表多出來的字根主要是因為GB 13000.1字集的字數比林樹字集多,而且還包含簡化字。

字根的認定,是字形資料庫中令人困擾的問題之一。對林樹字根而言,它是在減少每個字平均的字根數和字根總數下求得平衡;對漢字基礎部件而言,它是在有理據拆分和無理據拆分中取得妥協。但是在將字形資料庫導入缺字解決方案後,我們必須向使用者說明字根的特性,有鑑於這兩個字根集的字根有不少是康熙部首,再加上大多數人對於康熙部首並不陌生,於是在1998年初我們重新定義林樹字根集的拆分原則:

  1. 不管字源或頻度上的考量,所有的康熙部首皆視為字根,不論是原形、變形或是簡化字根,如「人(鶠^」、「心(Q、晼^」、「」、「言(c)」。
  2. 以康熙部首為最基本的字根集,並且不管字源,將漢字直接視為圖形,然後再採用橫連、直連及包含的方式拆分,那些無法拆分的字形或部件即視為字根,如「平」、「」。
  3. 林樹字集的前40個高頻字形仍視為字根。

從構形上來看,字根代表最小而不再拆分的部件,但在《漢字綜合索引字典》中,它還扮演著「索引」的角色。林樹字集的8532個字,不管拆分符號,然後按照字根的書寫順序(字根序)排列,只有9組相同,如「只(叭)」、「員(唄)」;即使不管書寫順序,相同的也只有43組,如「部(陪)」、「保(咻)」。由於重複的機率非常低,所以可把字根序當作索引。

除了字根外,字形資料庫另一個困擾的問題是合成部件。〈漢字基礎部件表〉的部件使用規則中指出,該部件表中的部件,可組合合成成字部件,但不得組合出非成字部件使用。但是在我們的字形拆分規則中,並不考慮字源,而只是將漢字以橫連、直連及包含的方式拆分,這在字根式中固然簡單明瞭,但在改以構字式表達後,就會產生不少非成字的合成部件,如『修=z』中的「」,因為在字源上「」拆分成「」及「q」。林樹字集在改用構字式表達後,額外多造了629Big5沒有的合成部件,情況更糟糕的是,一旦字集擴大後,雖然字根增加得很有限,但是非成字的合成部件卻會大量增加,而形成系統嚴重的負擔,如要拆完《中文大辭典》的49905個字,這類部件可能增加到5000個。

合成部件雖然有字源上的意義,但是在我們將漢字視為圖形拆分,並將字形資料庫用來解決缺字時,這類部件的作用已蛻變成簡化字形的表達,如字根式『堰=土礡]匚鞳]日韙k))』可改寫成構字式『堰=土藗』,字根序「土匚日女」可改寫成部件序「土匽」。由簡化字形表達的觀點來看,合成部件的取捨應考量部件的使用頻度,保留常用的,去除罕用的,如此不但可大量減低系統的負荷,而且不會妨礙到字形表達的簡易性。另外,有些重疊的部件,可改用方便符號表達而捨棄,如『瞿=鶗颸A』、『俎=穭H禰B』、『桑=鬗S韙』、『綴=糷S』。

1997年底,當時林樹字集的部件數共2150個,其中有1452個在Big5裡,另外的698個為造字。從使用頻度來看,假使希望99.9%的字都可由構字式組成(即留下0.1%的字用其他的方法解決,以增進系統效益),只須保留464個造字,然而捨棄的的207個造字中有27個是字根,再加上保留的464個造字中有22個是重疊部件,所以實際上保留的造字為464+27-22=469個,精簡後的林樹部件集共1921個。接著以林樹部件集為基礎,將字集擴大到Big5及簡化字總表,並且加上康熙部首214個、《中文字根孳乳表稿》【16】裡的聲母869個、形母265個,說文說首540個、漢字基礎部件560個,最後的部件集總數為2600個,包括801個字根及1799個合成部件,其中在Big5內的有1817個,造字783個。

2600個部件的適用性如何?《中文大辭典》49905個字,可完全拆分的有48285個;《漢語大字典》54727個字,可完全拆分的有53227個。至於這兩個字集所剩的16201500個字形若要完全拆分,分別還要再加上1006844個字根,然而目前的字根數也只不過是801個。由於這些字形有不少是隸定以前的文字,還需進一步的過濾。另外在喃文2999個字中,目前扣除手寫字跡模糊以致無法判定的109個字形外,其他可完全分解的有2709個字形,另外還有181個字形必須再補字根才可完全分解。


Page 2 of 6
上一頁

論文目錄

下一頁

文獻處理實驗室