文獻處理實驗室 論文目錄

「第二次兩岸古籍整理研究學術研討會」,北京大學,北京,1998年5月11-13日

中央研究院古籍全文資料庫解決缺字問題的方法

Page 5 of 8

伍、缺字解決方案與缺字管理

漢籍全文資料庫現行的製作流程分為五個步驟,分別是資料登錄、校對、缺字管理、標誌與資料庫建立。各步驟大體上依序而行,唯獨缺字管理的工作另又散見於資料登錄及校對。以下略述現行的缺字管理作業,再詳述引進缺字解決方案後,將採行的新作業規範。

一、現行缺字管理

現行的資料登錄,每遇缺字,就代以固定的缺字符號「●」。於最後一次校對時,凡遇缺字,就填寫缺字表,按出現順序列出缺字的出處和字形。

缺字管理的終端處理比較複雜。首先要去除缺字表中的重複記載,篩檢出新字,同時累計每種新字出現的次數。早期新字篩檢完全仰賴人工,非常費時。現在雖因輔助程式,效率大有提昇,仍不如新法,因為後者通常不需要篩檢新字。

新字篩檢完畢,開始製作新字(造字)。受限於五大碼的造字空間只有 5,809 字,已知的近一萬個新字無法都造,只能取其中字頻高者優先造字,剩下的只好置之不理。

造字終了,展開補字。依據缺字表所載出處,於各資料檔補上新字。補字過程中的錯誤因素包括漏補、補錯字,以及編輯器指令操作失誤,導致正常資料受損等。因造字空間不足而從缺的字無法補回,自然無從檢索。

二、導入缺字解決方案的缺字管理

在【2】中提到一種資料登錄系統,結合字形資料庫、網路、具備組字式處置能力的編輯器及中文系統,期能即時供給缺字字形,自根本消滅缺字問題。其中涉及的資訊技術繁多,一時之間不能盡解,缺字的困擾卻迫在眉睫。是故自目前的系統轉變為理想中之系統時,勢必經過一些中間過程,如此方不致於產生人員、技術、設備等等變更太大的困擾,以下之構想即循此而設計。

新的缺字管理比舊的省了許多事,造字檔只包含組字式的部件、運算符號與組字式不能表達的新字。在登錄階段,標準字集之外的字不是用組字式表示,就是直接用造字檔中的字。除非遇上組字式表達不了,造字檔又尚未供應的罕見字,否則沒有代以缺字符號的機會。既無缺字符號,輾轉抄錄缺字然後回補的現象消失了,伴隨的人工錯誤源跟著消失。效率提昇、錯誤反而減少。遇到前述之罕用字,可由專人查詢字形資料庫,找到缺字序號,記錄於資料檔中。字形資料庫若缺此字,則立刻新增,並將此字納入造字檔中,再將序號改為內碼。

到了校對階段,逕自檢查缺字的組字式是否正確,或者更進一步,藉著字形資料庫及相關程式之助,產生組字式的字體檔,再把資料檔的組字式映對至字體,呈現出來。此法所以可行,關鍵在字形資料庫能聯接到四、五萬字的大型字庫來提供字形,如:Kanji Base等【8】。本方案以字體檔來安置能用組字式表達的缺字之字形。藉助於組字式─字體對照表,解決了字體檔裡的缺字內碼和標準字集重疊的問題,提供了幾乎無限的空間,而無礙於缺字字體的正確顯示。

本系統中缺字處理相關的程式包括:組字式蒐集程式、字形資料庫查詢程式、字體檔管理程式與組字式─字體轉換程式,其用途與運算步驟如下:

  1. 組字式蒐集程式掃瞄各資料檔,尋找各種組字式,並報告初次出現之處。

  2. 蒐集到的組字式,轉由字形資料庫查詢程式核對。根據構字原理,再加上方便符號的介入,一個字常見有兩種以上的組字式,卻總能推導至共同的字根序。用它來查詢字形資料庫,得到此字的訊息。如果此字不屬於標準字集,記其序號、字根序、正規組字式及字體位址;否則,記其內碼。假使字根序不存在,留待校對者判斷究竟是發現新字,或是組字式有誤。即刻將所有新字的訊息納入字形資料庫,再次執行字形資料庫查詢程式。

  3. 字體檔管理程式接續處理前一步驟濾出的訊息。如果字體檔尚未產生,取得缺字字體,組成字體檔,並產生組字式─字體對照表。對照表的欄位包含序號、正規組字式、字根序及字體訊息(字體檔名/內碼),內碼係自動設定或人為指定。倘若字體檔與對照表業已存在,維護程式查出對照表所無的缺字,據以擴增字體檔與對照表。遇上大量缺字時,會有更多的字體檔,對照表仍維持一份。

  4. 組字式─字體轉換程式透過對照表把組字式應對至缺字字體或標準字內碼,配合字體檔,即利於校對。校對工作包含訂正組字式謬誤,也許還有把內碼改成組字式的狀況,所以末了再以程式查驗這些組字式。

這些程式都不複雜,短期內能夠完成。一旦字形資料庫具備所有組字式的字體,校對者的作業流程簡化如下, 其中第1、2、4 各項非常快速,它們在校對階段佔用的工時比例,少得可以忽略。

  1. 用單一指令執行有關程式,產生或更新字體檔,並獲致經過字體轉換的資料檔

  2. 若字體檔變動,重行安裝

  3. 校對

  4. 用單一指令查驗校妥的組字式


Page 5 of 8
上一頁

論文目錄

下一頁

文獻處理實驗室