「電子古籍中的文字問題研討會」 1999年6月14-16日 漢字印刷字形的整理 |
Page 2 of 6 |
貳、漢字部件的探討
部件即是漢字的構形單位,當一個形體用來構造其它的字,成為所構字的一部分時,稱之為所構字的部件,如「 相」、「心」是「想」的部件。在早期賴以建置字形資料庫的《漢字綜合索引字典》一書中,曾提出字根索引的概念。其實字根只是部件中的一種,在〈漢字部件規範〉【15】中,將字根稱為基礎部件,指的是在對漢字進行拆分時,那些最小的不再拆分的部件,如「想」中的「心」。至於那些可由兩個以上的基礎部件組成的部件則稱合成部件,如「想」中的「相」。另外,部件中可以獨立成字的稱成字部件,如「另」中的「口」;不能獨立成字的稱非成字部件,如「病」中的「」。〈漢字部件規範〉內附一個 560個基礎部件的〈漢字基礎部件表〉,這些部件是根據GB 13000.1字集中的20902個漢字,逐字拆分而得,其中字形的拆分原則如下:
和〈漢字基礎部件表〉相比,〈交大字根集〉的字形拆分原則在 1,3,4點是相同的,但是仍有兩個獨特的拆分原則:
字根的認定,是字形資料庫中令人困擾的問題之一。對林樹字根而言,它是在減少每個字平均的字根數和字根總數下求得平衡;對漢字基礎部件而言,它是在有理據拆分和無理據拆分中取得妥協。但是在將字形資料庫導入缺字解決方案後,我們必須向使用者說明字根的特性,有鑑於這兩個字根集的字根有不少是康熙部首,再加上大多數人對於康熙部首並不陌生,於是在 1998年初我們重新定義林樹字根集的拆分原則:
從構形上來看,字根代表最小而不再拆分的部件,但在《漢字綜合索引字典》中,它還扮演著「索引」的角色。林樹字集的 8532個字,不管拆分符號,然後按照字根的書寫順序(字根序)排列,只有9組相同,如「只(叭)」、「員(唄)」;即使不管書寫順序,相同的也只有43組,如「部(陪)」、「保(咻)」。由於重複的機率非常低,所以可把字根序當作索引。除了字根外,字形資料庫另一個困擾的問題是合成部件。〈漢字基礎部件表〉的部件使用規則中指出,該部件表中的部件,可組合合成成字部件,但不得組合出非成字部件使用。但是在我們的字形拆分規則中,並不考慮字源,而只是將漢字以橫連、直連及包含的方式拆分,這在字根式中固然簡單明瞭,但在改以構字式表達後,就會產生不少非成字的合成部件,如『 修=z』中的「」,因為在字源上「修」拆分成「攸」及「q」。林樹字集在改用構字式表達後,額外多造了629個Big5沒有的合成部件,情況更糟糕的是,一旦字集擴大後,雖然字根增加得很有限,但是非成字的合成部件卻會大量增加,而形成系統嚴重的負擔,如要拆完《中文大辭典》的49905個字,這類部件可能增加到5000個。合成部件雖然有字源上的意義,但是在我們將漢字視為圖形拆分,並將字形資料庫用來解決缺字時,這類部件的作用已蛻變成簡化字形的表達,如字根式『 堰=土礡]匚鞳]日韙k))』可改寫成構字式『堰=土藗』,字根序「土匚日女」可改寫成部件序「土匽」。由簡化字形表達的觀點來看,合成部件的取捨應考量部件的使用頻度,保留常用的,去除罕用的,如此不但可大量減低系統的負荷,而且不會妨礙到字形表達的簡易性。另外,有些重疊的部件,可改用方便符號表達而捨棄,如『瞿=鶗颸A』、『俎=穭H禰B』、『桑=鬗S韙』、『綴=糷S』。 1997年底,當時林樹字集的部件數共2150個,其中有1452個在Big5裡,另外的698個為造字。從使用頻度來看,假使希望99.9%的字都可由構字式組成(即留下0.1%的字用其他的方法解決,以增進系統效益),只須保留464個造字,然而捨棄的的207個造字中有27個是字根,再加上保留的464個造字中有22個是重疊部件,所以實際上保留的造字為464+27-22=469個,精簡後的林樹部件集共1921個。接著以林樹部件集為基礎,將字集擴大到Big5及簡化字總表,並且加上康熙部首214個、《中文字根孳乳表稿》【16】裡的聲母869個、形母265個,說文說首540個、漢字基礎部件560個,最後的部件集總數為2600個,包括801個字根及1799個合成部件,其中在Big5內的有1817個,造字783個。這 2600個部件的適用性如何?《中文大辭典》49905個字,可完全拆分的有48285個;《漢語大字典》54727個字,可完全拆分的有53227個。至於這兩個字集所剩的1620及1500個字形若要完全拆分,分別還要再加上1006及844個字根,然而目前的字根數也只不過是801個。由於這些字形有不少是隸定以前的文字,還需進一步的過濾。另外在喃文2999個字中,目前扣除手寫字跡模糊以致無法判定的109個字形外,其他可完全分解的有2709個字形,另外還有181個字形必須再補字根才可完全分解。 |
Page 2 of 6 |