文獻處理實驗室 論文目錄

「第二次兩岸古籍整理研究學術研討會」,北京大學,北京,1998年5月11-13日

中央研究院古籍全文資料庫解決缺字問題的方法

Page 1 of 8

莊德明、謝清俊、林晰

摘要

用計算機處理漢字資料時,常有些字的字形是交換碼中沒有的,這情形在古籍中特別嚴重。為了要保留這些字形,常用的方法是在使用者造字區內,增加這個字形,可是這樣的做法不但要付出巨大代價,也沒能真正解決問題。例如:為了成千上萬新造的字,資料登錄的工作大幅增加;檢索文件時亦將面臨異體字檢索的難題;彼此分享資料時則更嚴重,可能的重碼將造成資料錯誤或文件讀不出來的狀態,以至於根本無法共享資料。這就是所謂的「缺字問題」。

目前,對於繼承漢文化的地區來說,缺字問題已是一個共同的夢魘,凡是遇到漢字的人名、地名、史料等等,都有相當嚴重的缺字問題;所以,缺字問題已是一個國際性大家都關心的問題。以中央研究院(台北)十四年來發展電子古籍的經驗來說,到目前為止集聚的缺字業已超過九千六百字,其嚴重性與求解迫切性可想而知。本文即針對此問題,將本院解決缺字的方法,包括理論和實務方面,作一介紹。

我們採取的方法是:運用字形資料庫來表達字形的結構和該字的屬性,在資料庫中,字形是以部件及字根的組合方式表達。目前已建立四萬餘字形的構字式。通常,遇到缺字時,該字的輸入碼、交換碼、字形等都沒有存在電腦中,是無法處理的,然而有了字形資料庫就可用它來提供缺字的輸入、描述、識別、查詢和作後續的處理工作。

理論上,字形資料庫所表達的就是字形的孳乳,每個字根都孳生出一棵字形的家族樹。在這些樹中,每個構字式的描述限制於只用三個分解方式中的一個來表達,此三個分解方式即:橫向、直向和包涵。在非末端節點上的字形,稱為「部件」,這是構成所有字形變化的基礎字形。本系統中的部件共有約2,370個字形:字根為625個;非字根的1,745個部件(其中1,419個是五大碼用字,326個為五大碼並未收錄)。以此基礎來對付前述本院9,600以上的缺字時,約有96%強的缺字即可解決,而殘留的問題字形,在增加部件後,即可全部解決。本文將對此缺字的分析,提出詳細的報告。

應用方面,我們正依據這個解決缺字問題的方法,來更新資料登錄系統和全文資料庫的檢索機制。這些構想亦將一併在文中說明。


Page 1 of 8
上一頁

論文目錄

下一頁

文獻處理實驗室