「第二次兩岸古籍整理研究學術研討會」,北京大學,北京,1998年5月11-13日 中央研究院古籍全文資料庫解決缺字問題的方法 |
Page 5 of 8 |
伍、缺字解決方案與缺字管理 漢籍全文資料庫現行的製作流程分為五個步驟,分別是資料登錄、校對、缺字管理、標誌與資料庫建立。各步驟大體上依序而行,唯獨缺字管理的工作另又散見於資料登錄及校對。以下略述現行的缺字管理作業,再詳述引進缺字解決方案後,將採行的新作業規範。 一、現行缺字管理現行的資料登錄,每遇缺字,就代以固定的缺字符號「●」。於最後一次校對時,凡遇缺字,就填寫缺字表,按出現順序列出缺字的出處和字形。 缺字管理的終端處理比較複雜。首先要去除缺字表中的重複記載,篩檢出新字,同時累計每種新字出現的次數。早期新字篩檢完全仰賴人工,非常費時。現在雖因輔助程式,效率大有提昇,仍不如新法,因為後者通常不需要篩檢新字。 新字篩檢完畢,開始製作新字(造字)。受限於五大碼的造字空間只有 5,809 字,已知的近一萬個新字無法都造,只能取其中字頻高者優先造字,剩下的只好置之不理。 造字終了,展開補字。依據缺字表所載出處,於各資料檔補上新字。補字過程中的錯誤因素包括漏補、補錯字,以及編輯器指令操作失誤,導致正常資料受損等。因造字空間不足而從缺的字無法補回,自然無從檢索。 二、導入缺字解決方案的缺字管理在【2】中提到一種資料登錄系統,結合字形資料庫、網路、具備組字式處置能力的編輯器及中文系統,期能即時供給缺字字形,自根本消滅缺字問題。其中涉及的資訊技術繁多,一時之間不能盡解,缺字的困擾卻迫在眉睫。是故自目前的系統轉變為理想中之系統時,勢必經過一些中間過程,如此方不致於產生人員、技術、設備等等變更太大的困擾,以下之構想即循此而設計。 新的缺字管理比舊的省了許多事,造字檔只包含組字式的部件、運算符號與組字式不能表達的新字。在登錄階段,標準字集之外的字不是用組字式表示,就是直接用造字檔中的字。除非遇上組字式表達不了,造字檔又尚未供應的罕見字,否則沒有代以缺字符號的機會。既無缺字符號,輾轉抄錄缺字然後回補的現象消失了,伴隨的人工錯誤源跟著消失。效率提昇、錯誤反而減少。遇到前述之罕用字,可由專人查詢字形資料庫,找到缺字序號,記錄於資料檔中。字形資料庫若缺此字,則立刻新增,並將此字納入造字檔中,再將序號改為內碼。 到了校對階段,逕自檢查缺字的組字式是否正確,或者更進一步,藉著字形資料庫及相關程式之助,產生組字式的字體檔,再把資料檔的組字式映對至字體,呈現出來。此法所以可行,關鍵在字形資料庫能聯接到四、五萬字的大型字庫來提供字形,如:Kanji Base等【8】。本方案以字體檔來安置能用組字式表達的缺字之字形。藉助於組字式─字體對照表,解決了字體檔裡的缺字內碼和標準字集重疊的問題,提供了幾乎無限的空間,而無礙於缺字字體的正確顯示。 本系統中缺字處理相關的程式包括:組字式蒐集程式、字形資料庫查詢程式、字體檔管理程式與組字式─字體轉換程式,其用途與運算步驟如下:
這些程式都不複雜,短期內能夠完成。一旦字形資料庫具備所有組字式的字體,校對者的作業流程簡化如下, 其中第1、2、4 各項非常快速,它們在校對階段佔用的工時比例,少得可以忽略。
|
Page 5 of 8 |