文獻處理實驗室 論文目錄

「電子古籍中的文字問題研討會」 1999年6月14-16日

漢字印刷字形的整理

Page 4 of 6

肆、異體字形的處理

異體字的問題相當複雜,本篇論文題文設限在印刷字形,多少也是想簡化這方面的討論。這些年來,雖然我們絕大部分的時間都在確認字形的表達,而無法挪出較多的時間來處理異體字,但是在驗證Big5、《中文大辭典》、《漢語大字典》等字集,拆分過十萬個以上的字形後,對於異體字的問題,多少有點瞭解,希望藉著這篇論文提出一些初步的看法。

目前對於異體字的蒐集,比較完整的算是《漢語大字典》的異體字表。此表的編排是採用主體字統領異體字的方式,將同一主體字統領的簡化字(限於1986年新版的《簡化字總表》所收的簡化字)、古今字、全同異體字(指音義全同而形體不同的字)、非全同異體字(指音義部分相同的異體字),集中在該主體字下編為一組,共有主體字12207個,異體字29233個。另外,這些異體字也有一些本為民間俗字,而舊字書定為訛字,該表仍作異體字處理。異體字的例子如「」是「」的簡化字,而「」的另一個異體字「」,同時也是「」的異體字,所以「」和「」、「」只是部分相同。很遺憾的是,除了簡化字以外,主體字和異體字的關聯,到底是全同、古今、或訛字,該表並未說明,必需重新查閱字典。由於釐清這些字形間的關係,需要相當多的人力,目前我們只輸入了整個異體字表。

異體字表裡的異體字,在《漢字漢語基礎》一書中稱為異構字,和異構字相對的,是所謂的異寫字。異寫字是音、義、用完全相同的字,彼此間的差異主要是部件的異寫,如「」與「」皆由部件「」及「」構成,只不過「」在「」中異寫成「p」。異寫字由於數量龐大,而且有規則可循,所以異體字表中收錄得很少。異構字的整理,重點在於釐清字形間全同、不全同等的關係;而異寫字由於音、義、用完全相同,所以它的整理重點,則在於列出部件間異寫的現象。對字形資料庫而言,異構字除了逐字登錄外,還要標示字形間的關係;至於異寫字,只需找一個參考字形登錄,另外再標示部件的異寫現象即可。

參考字形的選定,我們一直以楷體為拆分的依據,因為楷體比較接近書寫習慣,福=p』。由於各印刷廠及電腦字型的楷體字形都不太相同,最後我們以1993年教育部公布的標準楷體母稿為主,這也就是Microsoft Windows 95(或98)繁體中文版內附的標楷體。標楷體的最大特色在於儘可能的由部件來反應字源,並由部件的規範達到字形的規範,只是也因此和傳統的書寫方式有所出入,造成處理上的困擾。如「s」()與「」()、「」()與「鵅v()在標楷體分得很清楚,但是在將這些部件延伸到《中文大辭典》和《漢語大字典》時,部分以「」、「」為部件的字形由於意義不詳,根本無法正確判斷。

值得一提的是,《漢語大字典》在字形的處理上,是採用新舊部件並列的方式,如部件「」()、「」()交互出現。至於新舊部件的取捨,純粹取決於參考書目的字形。《漢語大字典》的參考書目有2965種,包括《周易》等古文獻,也包括1980年代的出版品,所以越是常用字,新舊字形交互出現的機會越高,此時即採用新形;反之,越是罕用字,在只有舊形的情況下,也只好採用舊形。相形之下,標楷體和《中文大辭典》採用的部件,大多是《漢語大字典》裡的舊部件。由此可知,異寫部件是可以規範的,而且是有必要規範的,否則同一個部件,在不同的字集裡,一旦寫法不同時,都會造成分析及檢索上的困擾。

另外,有些部件雖不是異寫,但因外形相似而難以辨識,也可視同異寫部件處理,如部件「E」()、「q」()是兩個不同的部首,雖在標楷體和《中文大辭典》都有明確區分,但在《漢語大字典》裡,「q」有時也會作「E」(夏)。至於異寫部件的整理,除了《漢語大字典》在〈新舊字形對照舉例表〉中列出72組外,其他的我們還在整理中,如部件「」與「」,標楷體採用「捸v(),《中文大辭典》大多用「」,《漢語大字典》則並列。


Page 4 of 6
上一頁

論文目錄

下一頁

文獻處理實驗室