「第二次兩岸古籍整理研究學術研討會」,北京大學,北京,1998年5月11-13日 中央研究院古籍全文資料庫解決缺字問題的方法 |
Page 2 of 8 |
壹、前言 用計算機處理漢字資料時,文件中常有些字的字形是交換碼中沒有的,這情形稱為缺字問題。缺字問題在處理大量資料時(如國家級的資料庫和處理古籍時)特別嚴重。為了要呈現和處理這些欠缺的字形,常用的方法是在交換碼的使用者造字區內,增加這個字形,可是這樣的做法不但要付出巨大代價,也沒能真正解決問題。例如:為了新造的字,資料登錄的工作大幅增加;檢索文件時將面臨異體字檢索的難題;彼此分享資料時則更嚴重,造字區的重碼現象將造成資料錯誤或文件讀不出來的狀態,若是在同一區域網路中,不容隨便更改造字區的內容的話,則會造成根本無法共享資料的窘境。 中央研究院利用計算機處理古籍已有十四年,其中以全文資料庫的發展最受矚目,目前上線的全文資料庫總字數已超過一億四仟萬字(詳本會議中黃寬重和劉增貴先生之論文),其所用的技術則全由院內同仁自行開發,包括:全文資料庫的結構、文章的標誌系統、資料登錄之管理、缺字造字之管理等。然而,這些資料庫到目前為止集聚的缺字業已超過九千六百字,其嚴重性與求解迫切性可想而知。本文即針對此問題,將本院解決缺字的方法,包括理論和實務方面,作一介紹。 |
Page 2 of 8 |