文獻處理實驗室 論文目錄

「電子古籍中的文字問題研討會」 1999年6月14-16日

漢字印刷字形的整理

Page 1 of 6

莊德明

壹、字形整理的回顧

目前電腦處理漢字的種種問題,最主要的原因是電腦中的漢字信息嚴重不足,其中又以字形的問題最需迫切解決。從19939月起,本實驗室即著手於漢字字形的整理工作,並陸續發表多篇論文【1,2,3,4,5,6】。由這些論文的發表順序中,可以發現早期的字形整理工作,主要在建立字形資料庫,其中重要的參考文件為《中文電腦基本用字研究》【7】、〈中國文字之結構模式及其分析〉【8】及《漢字綜合索引字典》【9】。

《中文電腦基本用字研究》一書,共蒐集8532個字,另有參考字形597個,統計共2022604字次,此即〈中文電腦基本用字表〉,以下簡稱林樹字集。由於往後在台灣並沒有更好的文字統計,所以我們仍以此字集為藍本。另外,〈中國文字之結構模式及其分析〉一文測試了十幾種常用的構字方式,並統計使用的頻度,發現只用橫連(礡^、直連(鞢^及包含(鞳^三種組合方式,可以大幅簡化漢字的結構。採用這三種組合方式,將林樹字集逐字拆分後,得出496個字根,簡稱〈交大字根集〉。至於《漢字綜合索引字典》一書,則記錄著林樹字集8532個字的字根式,如『堰=土礡]匚鞳]日韙k))』。這496個字根,也曾經針對《中文大辭典》【10】的49905個字形逐一核試,共可組合48713個字,其餘的1192個字不是非常罕用,就是隸定前的文字。值得注意的是,在作這些研究的時候,中文個人電腦尚未出現,更不用說字集及輸入法,字根在某一個意義上,就是輸入法,尤其當時的印刷打字,一字一鍵,相形之下,496鍵的字根鍵盤要合適多了。

字形資料庫的初期工作,是要在電腦中還原林樹字集及字根式。由於每個字形的字根數不一,如「」的字根數為4,「」為2;再加上部件的共用機會也不小,如部件「」為「」及「」共用,所以在字形資料庫中,我們以一系列的構字式代替字根式,如『堰=土藗』、『匽=匚』、『牷蚺韙k』。構字式雖然大幅簡化了登錄工作,但是額外的代價為多造了629Big5沒有的部件,如「怴]鎖)」、「蝖]嵕)」等。林樹字集登錄完成之後,我們發現每個字的構字式都是唯一的,所以構字式可用來識別字形。

以往電腦在面對漢字時,都採用數位編碼,首定定義一個字集,然後再針對字集裡的每一個字,給予一個數位碼。事實上漢字並不是一個封閉集合,而是開放集合,因為漢字在發展的過程中,同一個字在不同的時空下,常有不同的字形,如「藥」和「葯」等;再加上漢字在不同的應用範疇,常有創新字的需求,如化學元素及新發現的動植物。漢字既然是開放集合,所以無論字集如何擴充,缺字問題依然存在。相對於數位編碼,以構字式為主的構形編碼可能更適於漢字,因為構字式可透過有限的部件及拆分符號,來組出無限的字形。在面對電子古籍層出不窮的缺字時,對照目前的電腦內碼,如Big5UnicodeCNSCCCII等,構字式應該是一個更好的交換碼。構字式由於是從漢字的構形出發,所以只要有適量的部件,不管是台灣、大陸、日本、韓國及越南的漢字應該都可以處理。而且在應用上,構字式仍可和目前的電腦內碼共存,只要增加適量的部件及拆分符號,各種內碼即可相互轉碼,如CCCII轉到Big5Big5的缺字則可用構字式表達。

由於林樹字集只有8532個字,為了進一步驗證構字式的實用性,我們繼續分析了Big5字集的13053個字、〈簡化字總表〉【11】的2235個字、《中文大辭典》的49905個字、《漢語大字典》【12】的54727個字、喃文的2999個字。在構字式驗證的過程中,構字式本身並沒什麼問題,有問題的是部件的數量,例如以林樹的部件集來表達《中文大辭典》用字,只能組合出42374個,若要再表達其餘的字形,至少還要再造4019個部件。為了減少部件的數量,我們在構字式外,另增部件序,部件序不需要拆分符號,只需在部件前後加上標示符號即可,如『牖=片戶甫』。部件序提出後,字形表達的問題仍舊回到字根的層次,這在《中文大辭典》和《漢語大字典》中最為明顯,因為要把這兩個字集所剩的16201500個字形完全拆分,分別還要再加上1006844個字根。由於這些字形有不少是隸定以前的文字,所以還需進一步的過濾。

除了字形的表達外,字形資料庫的另一個重點是異體字的標示,如「塼」和「磚」為異體字。林樹字集登錄完畢後,我們隨即進行異體字標示,初期以林樹字集內附的597個參考字形為主,接著加上2235個簡化字。然而異體字間的關係,比我們當初所認為的還要複雜。在《漢語大字典》的異體字表中,蒐集了29233個異體字,這些異體字的關係不只是全同及簡繁、還包括古今、訛字、不全同等,很遺憾的是這些關係在異體字表裡並沒有表達出來。由於釐清這些字形間的關係,需要相當多的人力,目前我們只輸入了整個異體字表。


Page 1 of 6
上一頁

論文目錄

下一頁

文獻處理實驗室