中央研究院古籍全文資料庫解決缺字問題的方法 8-5

伍、缺字解決方案與缺字管理

漢籍全文資料庫現行的製作流程分為五個步驟，分別是資料登錄、校對、缺字管理、標誌與資料庫建立。各步驟大體上依序而行，唯獨缺字管理的工作另又散見於資料登錄及校對。以下略述現行的缺字管理作業，再詳述引進缺字解決方案後，將採行的新作業規範。

一、現行缺字管理

現行的資料登錄，每遇缺字，就代以固定的缺字符號「●」。於最後一次校對時，凡遇缺字，就填寫缺字表，按出現順序列出缺字的出處和字形。

缺字管理的終端處理比較複雜。首先要去除缺字表中的重複記載，篩檢出新字，同時累計每種新字出現的次數。早期新字篩檢完全仰賴人工，非常費時。現在雖因輔助程式，效率大有提昇，仍不如新法，因為後者通常不需要篩檢新字。

新字篩檢完畢，開始製作新字（造字）。受限於五大碼的造字空間只有 5,809 字，已知的近一萬個新字無法都造，只能取其中字頻高者優先造字，剩下的只好置之不理。

造字終了，展開補字。依據缺字表所載出處，於各資料檔補上新字。補字過程中的錯誤因素包括漏補、補錯字，以及編輯器指令操作失誤，導致正常資料受損等。因造字空間不足而從缺的字無法補回，自然無從檢索。

二、導入缺字解決方案的缺字管理

在【2】中提到一種資料登錄系統，結合字形資料庫、網路、具備組字式處置能力的編輯器及中文系統，期能即時供給缺字字形，自根本消滅缺字問題。其中涉及的資訊技術繁多，一時之間不能盡解，缺字的困擾卻迫在眉睫。是故自目前的系統轉變為理想中之系統時，勢必經過一些中間過程，如此方不致於產生人員、技術、設備等等變更太大的困擾，以下之構想即循此而設計。

新的缺字管理比舊的省了許多事，造字檔只包含組字式的部件、運算符號與組字式不能表達的新字。在登錄階段，標準字集之外的字不是用組字式表示，就是直接用造字檔中的字。除非遇上組字式表達不了，造字檔又尚未供應的罕見字，否則沒有代以缺字符號的機會。既無缺字符號，輾轉抄錄缺字然後回補的現象消失了，伴隨的人工錯誤源跟著消失。效率提昇、錯誤反而減少。遇到前述之罕用字，可由專人查詢字形資料庫，找到缺字序號，記錄於資料檔中。字形資料庫若缺此字，則立刻新增，並將此字納入造字檔中，再將序號改為內碼。

到了校對階段，逕自檢查缺字的組字式是否正確，或者更進一步，藉著字形資料庫及相關程式之助，產生組字式的字體檔，再把資料檔的組字式映對至字體，呈現出來。此法所以可行，關鍵在字形資料庫能聯接到四、五萬字的大型字庫來提供字形，如：Kanji Base等【8】。本方案以字體檔來安置能用組字式表達的缺字之字形。藉助於組字式─字體對照表，解決了字體檔裡的缺字內碼和標準字集重疊的問題，提供了幾乎無限的空間，而無礙於缺字字體的正確顯示。

本系統中缺字處理相關的程式包括：組字式蒐集程式、字形資料庫查詢程式、字體檔管理程式與組字式─字體轉換程式，其用途與運算步驟如下：

組字式蒐集程式掃瞄各資料檔，尋找各種組字式，並報告初次出現之處。
蒐集到的組字式，轉由字形資料庫查詢程式核對。根據構字原理，再加上方便符號的介入，一個字常見有兩種以上的組字式，卻總能推導至共同的字根序。用它來查詢字形資料庫，得到此字的訊息。如果此字不屬於標準字集，記其序號、字根序、正規組字式及字體位址；否則，記其內碼。假使字根序不存在，留待校對者判斷究竟是發現新字，或是組字式有誤。即刻將所有新字的訊息納入字形資料庫，再次執行字形資料庫查詢程式。
字體檔管理程式接續處理前一步驟濾出的訊息。如果字體檔尚未產生，取得缺字字體，組成字體檔，並產生組字式─字體對照表。對照表的欄位包含序號、正規組字式、字根序及字體訊息(字體檔名/內碼)，內碼係自動設定或人為指定。倘若字體檔與對照表業已存在，維護程式查出對照表所無的缺字，據以擴增字體檔與對照表。遇上大量缺字時，會有更多的字體檔，對照表仍維持一份。
組字式─字體轉換程式透過對照表把組字式應對至缺字字體或標準字內碼，配合字體檔，即利於校對。校對工作包含訂正組字式謬誤，也許還有把內碼改成組字式的狀況，所以末了再以程式查驗這些組字式。

這些程式都不複雜，短期內能夠完成。一旦字形資料庫具備所有組字式的字體，校對者的作業流程簡化如下，其中第1、2、4 各項非常快速，它們在校對階段佔用的工時比例，少得可以忽略。

用單一指令執行有關程式，產生或更新字體檔，並獲致經過字體轉換的資料檔

若字體檔變動，重行安裝

校對

用單一指令查驗校妥的組字式