中央研究院古籍全文資料庫解決缺字問題的方法 8-2

壹、前言

用計算機處理漢字資料時，文件中常有些字的字形是交換碼中沒有的，這情形稱為缺字問題。缺字問題在處理大量資料時（如國家級的資料庫和處理古籍時）特別嚴重。為了要呈現和處理這些欠缺的字形，常用的方法是在交換碼的使用者造字區內，增加這個字形，可是這樣的做法不但要付出巨大代價，也沒能真正解決問題。例如：為了新造的字，資料登錄的工作大幅增加；檢索文件時將面臨異體字檢索的難題；彼此分享資料時則更嚴重，造字區的重碼現象將造成資料錯誤或文件讀不出來的狀態，若是在同一區域網路中，不容隨便更改造字區的內容的話，則會造成根本無法共享資料的窘境。

中央研究院利用計算機處理古籍已有十四年，其中以全文資料庫的發展最受矚目，目前上線的全文資料庫總字數已超過一億四仟萬字(詳本會議中黃寬重和劉增貴先生之論文)，其所用的技術則全由院內同仁自行開發，包括：全文資料庫的結構﹑文章的標誌系統、資料登錄之管理、缺字造字之管理等。然而，這些資料庫到目前為止集聚的缺字業已超過九千六百字，其嚴重性與求解迫切性可想而知。本文即針對此問題，將本院解決缺字的方法，包括理論和實務方面，作一介紹。