中央研究院古籍全文資料庫的發展概要 6-5

參、相關技術的開發

一、資料建製管理

資料建製包括繕打、校對、標誌與測試四個步驟，循序漸進。這並不表示完成所有的繕打才全面展開校對; 完成所有的校對才開始標誌。否則既會降低工作的效率，也會礙及逐時推出部分成品的機會。除了繕打之外，應該將全部的資料分割成若干單元，如將一本古書按卷分工之類。每個單元由專人依校對、標誌與測試的作業順序，一氣呵成。而不同的人可以對不同的單元平行作業，最後加以組合,即為完整的成品。即使只有一人，前述的方式仍然適用。

1. 繕打

繕打前應瀏覽原始資料，擬訂繕打規範。原則上按版面登錄,使輸入者藉直覺高速作業。然而為了方便標誌，甚或以程式協助標誌，必要時可對常見的版面格式訂定特殊的繕打方式。如有造字檔，繕打時務必裝設。

繕打規範通常包括下列事項:

擬訂資料分割、檔案命名方式。
一律橫打，採橫式引號。
規定其他標點符號打法。規定各種排版單元起始空白數，原則上按書籍版面留起始空白。
加頁碼標誌。
夾注起迄處標 \qn 與 \Qn。一行裡假如同時有大字原文及小字雙行夾注,
按行文順序打成一行。原始資料中的 \ 打成 \\。
含文字的表格原則上依行文先後順序打，不理版面因素。
缺字打成●(A1B4)。
建立異體字替換表。

2. 校對

由於傳統人工校對的效率遠低於繕打，且適當的校對人員也比繕打人員難求，建議一式資料由不同人員繕打兩分，初校時用程式比對兩分資料的差異，僅就差異處加以修訂。兩位輸入者在相同位置犯相同錯誤的機會很小，初校往往能迅速過濾大部分的錯誤。

校對時，逐一記錄打不出來的字及其出處，成為缺字表。然後藉程式的輔助，由缺字表篩出新字表。切勿純賴人工操作，否則不僅浪費時間，而且錯誤頻仍。把新字表交給造字管理小組做後續處理，該小組會回覆一分核校過的新字表。受制於造字空間有限，依據各新字的的字頻，決定處理方式:作為公用造字、專屬造字、代以既存的異體字或捨棄。專屬造字至多 471 個。捨棄的字除外，儘量查出諸字的注音。公用造字由造字管理小組統一製作，專屬造字通常由資料庫建製單位自製。

造字檔完成後，據缺字表補字。事前最好複製資料檔，供修補後校對之用。如果還有不造的字，應自缺字表勾選其出處，供使用者參考，兼日後補正之依據。

3. 標誌與測試

標誌前瀏覽資料，訂定標誌通例。實際作業時若遇到例外狀況，隨時討論增修。各個檔案先校對再標誌; 先標文件層級結構，再標基本文素裡的排版單元。標層級結構時，逐層而下，完成一層後，再進行下一層。標誌最好用編輯器直接進行，不要先行紙上作業。標完，即刻試將此檔建成資料庫，檢查是否正確。

由於校對甫成時，對資料最是熟捻，針對限量資料，宜由同一人連續校對、標誌及測試，期能獲致較高效率。此亦可增加工作的變化，及定時推出部分成品。

4. 資料庫開放

開放時宜附文件，說明緣起、原典版本、選擇依據、作業經過(人力、時程等)、電子版體例、造字表、異體字替換表、缺字表、校勘記、未含的資料等。

資料庫中若有專屬造字，稱為專屬資料庫，必須配合特定的專屬造字檔，才不會導致誤讀。專屬資料庫的開放程度，及相關造字檔的散播，由持有單位決定。

正式開放的資料庫，只含公用造字。專屬造字一律取代成●。使用者的造字檔只要有正確的公用造字，不論含專屬造字與否，都不至於產生誤解。這樣的資料庫稱為公用資料庫。資料庫完成備分後，原始資料檔便可刪除。

5. 資料庫修改

資料庫完成後，蒐集使用者提出的指正，隨時更新。此外還可能受新公用造字的影響，必須修改，見＜中文造字管理＞。

二、中文造字管理

1. 公用區與專屬區

Big5 碼造字空間有限，不能容納所有的新字，故將其割為兩區，亦即公用區及專屬區。新字經過字頻統計後，選擇使用次數較高者，置於公用區，稱為公用造字,其餘的捨棄不用。唯有些資料建製者，仍希望將這些字納入造字檔中，使電子資料完整無缺，遂有專屬區的設置。個別的資料建製者，得將排除於公用區之外的新字，安置於專屬區內，是為專屬造字。不同的資料建製者，規畫專屬區的方式各異。專屬區無法容納的新字，應予割棄。公用造字由造字管理小組製作，專屬造字原則上由資料建製單位自製。造字檔如果只含公用造字，叫公用造字檔; 假如又有專屬造字，便叫專屬造字檔。倚天系統的中文造字空間安排如下:

公用區：高位元組（high byte） FA~FE，8E~9D，81~8D

低位元組（low byte） 40~7E，A1~FE (計34*157 = 5338字)

專屬區：高位元組（high byte） 9E~A0

低位元組（low byte） 40~7E，A1~FE (計3*157 = 471字)

2. 造字程序

(1) 蒐集缺字：建製資料時，於校對過程中，記錄每個打不出來的字之出處，成為缺字表。

(2) 初篩新字：執行輔助程式，逐一輸入缺字表裡每個字的倉頡碼，由程式檢查是否和先前輸入的其他倉頡碼重複。假使未重覆，這個字必然是新字，將字型及程式所提供的字號登錄於新字表上。反之，程式會報告與某號字的倉頡碼相同，應據以核對新字表上該號字的字型，判斷是否相同。若不同，仍按發現新字的方式處理。初篩新字宜由單人為之，使每個缺字的倉頡碼趨於一致，不論其正確與否。

新字表格式：

字號、字型：初篩新字時，只填此二欄。

處理：新字處置方式為，新公用造字(公)、專屬造字(專)、代以異體字(異)或捨棄，四者之一。由造字管理小組決定是否為新公用造字，如果不是，由資料建製單位決定處理方法。

注音：處理方式決定後，由資料建製單位提供，捨棄的字除外。

異體字：造字管理小組在複查新字時提供異體字或疑似異體字。

新字總表字號：造字管理小組匯整各方新字後填寫。

已造：檢查新公用造字和專屬造字是否已經造過，由造字管理小組填寫。

(3) 複查新字：將新字表及新字篩檢程式所產生的檔案交給造字管理小組複檢。首先檢查該檔中的倉頡碼是否正確。如有更正情事，應檢查更正後的倉頡碼是否和其他倉頡碼相同，若相同則再查兩字字型相同否，若又同,便將兩字字頻合計於一字處，並將另一字自檔案及新字表刪去。接著裝妥公用造字檔，啟動中文系統(所有的造字務必已設倉頡碼)。仔細輸入每個新字，並刪除打得出來的字。由於各人拆解倉頡碼的方式，在大同中偶見小異，建議用倉頡簡易法詳細篩檢，以免因錯用倉頡碼，漏失了既存的字。簡易法較可能發現新字的(疑似)異體字，請將之記於新字表異體字欄，必要時可用來替代新字。

(4) 累計字頻：造字管理小組裝妥新字篩檢檔，此檔含有歷來發現的新字而未歸於公用造字者，與其對應的新字表叫新字總表。執行輔助程式,一面累計新字表諸字字頻，一面在新字表上標記新字總表字號。如找到從來未遇的字，同時將其字型及字號登錄於新字總表。

(5) 決定處理方式：按新字篩檢檔的字頻排序,選字頻最高者為公用造字。把這些字由累計用新字篩檢檔及新字總表剔除,其餘的字由資料建製單位,研判處理方式。

(6) 造字：依字形，實際製作新字。

(7) 修訂已完成資料庫：其他已完成的資料庫，可能受到新公用造字的影響。其新字表如果含這些新公用造字，應適當加以處置。