文獻處理實驗室 論文目錄

中央研究院
古籍全文資料庫的發展概要

Page 5 of 6

參、相關技術的開發

一、 資料建製管理

資料建製包括繕打、校對、標誌與測試四個步驟,循序漸進。這並不表示完成所有的繕打才全面展開校對; 完成所有的校對才開始標誌。否則既會降低工作的效率,也會礙及逐時推出部分成品的機會。除了繕打之外,應該將全部的資料分割成若干單元,如將一本古書按卷分工之類。每個單元由專人依校對、標誌與測試的作業順序,一氣呵成。而不同的人可以對不同的單元平行作業,最後加以組合,即為完整的成品。即使只有一人,前述的方式仍然適用。

1. 繕打

繕打前應瀏覽原始資料,擬訂繕打規範。原則上按版面登錄,使輸入者藉直覺高速作業。然而為了方便標誌,甚或以程式協助標誌,必要時可對常見的版面格式訂定特殊的繕打方式。如有造字檔,繕打時務必裝設。

繕打規範通常包括下列事項:

  • 擬訂資料分割、檔案命名方式。

  • 一律橫打,採橫式引號。

  • 規定其他標點符號打法。規定各種排版單元起始空白數,原則上按書籍版面留起始空白。

  • 加頁碼標誌。

  • 夾注起迄處標 \qn 與 \Qn。一行裡假如同時有大字原文及小字雙行夾注,

  • 按行文順序打成一行。原始資料中的 \ 打成 \\。

  • 含文字的表格原則上依行文先後順序打,不理版面因素。

  • 缺字打成●(A1B4)。

  • 建立異體字替換表。

2. 校對

由於傳統人工校對的效率遠低於繕打,且適當的校對人員也比繕打人員難求,建議一式資料由不同人員繕打兩分,初校時用程式比對兩分資料的差異,僅就差異處加以修訂。兩位輸入者在相同位置犯相同錯誤的機會很小,初校往往能迅速過濾大部分的錯誤。

校對時,逐一記錄打不出來的字及其出處,成為缺字表。然後藉程式的輔助,由缺字表篩出新字表。切勿純賴人工操作,否則不僅浪費時間,而且錯誤頻仍。把新字表交給造字管理小組做後續處理,該小組會回覆一分核校過的新字表。受制於造字空間有限,依據各新字的的字頻,決定處理方式:作為公用造字、專屬造字、代以既存的異體字或捨棄。專屬造字至多 471 個。捨棄的字除外,儘量查出諸字的注音。公用造字由造字管理小組統一製作,專屬造字通常由資料庫建製單位自製。

造字檔完成後,據缺字表補字。事前最好複製資料檔,供修補後校對之用。如果還有不造的字,應自缺字表勾選其出處,供使用者參考,兼日後補正之依據。

3. 標誌與測試

標誌前瀏覽資料,訂定標誌通例。實際作業時若遇到例外狀況,隨時討論增修。各個檔案先校對再標誌; 先標文件層級結構,再標基本文素裡的排版單元。標層級結構時,逐層而下,完成一層後,再進行下一層。標誌最好用編輯器直接進行,不要先行紙上作業。標完,即刻試將此檔建成資料庫,檢查是否正確。

由於校對甫成時,對資料最是熟捻,針對限量資料,宜由同一人連續校對、標誌及測試,期能獲致較高效率。此亦可增加工作的變化,及定時推出部分成品。

4. 資料庫開放

開放時宜附文件,說明緣起、原典版本、選擇依據、作業經過(人力、時程等)、電子版體例、造字表、異體字替換表、缺字表、校勘記、未含的資料等。

資料庫中若有專屬造字,稱為專屬資料庫,必須配合特定的專屬造字檔,才不會導致誤讀。專屬資料庫的開放程度,及相關造字檔的散播,由持有單位決定。

正式開放的資料庫,只含公用造字。專屬造字一律取代成●。使用者的造字檔只要有正確的公用造字,不論含專屬造字與否,都不至於產生誤解。這樣的資料庫稱為公用資料庫。資料庫完成備分後,原始資料檔便可刪除。

5. 資料庫修改

資料庫完成後,蒐集使用者提出的指正,隨時更新。此外還可能受新公用造字的影響,必須修改,見<中文造字管理>。

二、中文造字管理

1. 公用區與專屬區

Big5 碼造字空間有限,不能容納所有的新字,故將其割為兩區,亦即公用區及專屬區。新字經過字頻統計後,選擇使用次數較高者,置於公用區,稱為公用造字,其餘的捨棄不用。唯有些資料建製者,仍希望將這些字納入造字檔中,使電子資料完整無缺,遂有專屬區的設置。個別的資料建製者,得將排除於公用區之外的新字,安置於專屬區內,是為專屬造字。不同的資料建製者,規畫專屬區的方式各異。專屬區無法容納的新字,應予割棄。公用造字由造字管理小組製作,專屬造字原則上由資料建製單位自製。造字檔如果只含公用造字,叫公用造字檔; 假如又有專屬造字,便叫專屬造字檔。倚天系統的中文造字空間安排如下:

公用區:高位元組(high byte) FA~FE,8E~9D,81~8D

低位元組(low byte) 40~7E,A1~FE (計34*157 = 5338字)

專屬區:高位元組(high byte) 9E~A0

低位元組(low byte)  40~7E,A1~FE (計3*157 = 471字)

 

2. 造字程序

(1) 蒐集缺字:建製資料時,於校對過程中,記錄每個打不出來的字之出處,成為缺字表。

(2) 初篩新字:執行輔助程式,逐一輸入缺字表裡每個字的倉頡碼,由程式檢查是否和先前輸入的其他倉頡碼重複。假使未重覆,這個字必然是新字,將字型及程式所提供的字號登錄於新字表上。反之,程式會報告與某號字的倉頡碼相同,應據以核對新字表上該號字的字型,判斷是否相同。若不同,仍按發現新字的方式處理。初篩新字宜由單人為 之,使每個缺字的倉頡碼趨於一致,不論其正確與否。

新字表格式:

  • 字號、字型:初篩新字時,只填此二欄。

  • 處理:新字處置方式為,新公用造字(公)、專屬造字(專)、代以異體字(異)或捨棄,四者之一。由造字管理小組決定是否為新公用造字,如果不是,由資料建製單位決定處理方法。

  • 注音:處理方式決定後,由資料建製單位提供,捨棄的字除外。

  • 異體字: 造字管理小組在複查新字時提供異體字或疑似異體字。

  • 新字總表字號:造字管理小組匯整各方新字後填寫。

  • 已造:檢查新公用造字和專屬造字是否已經造過,由造字管理小組填寫。

(3) 複查新字:將新字表及新字篩檢程式所產生的檔案交給造字管理小組複檢。首先檢查該檔中的倉頡碼是否正確。如有更正情事,應檢查更正後的倉頡碼是否和其他倉頡碼相同,若相同則再查兩字字型相同否,若又同,便將兩字字頻合計於一字處,並將另一字自檔案及新字表刪去。接著裝妥公用造字檔,啟動中文系統(所有的造字務必已設倉頡碼)。仔細輸入每個新字,並刪除打得出來的字。由於各人拆解倉頡碼的方式,在大同中偶見小異,建議用倉頡簡易法詳細篩檢,以免因錯用倉頡碼,漏失了既存的字。簡易法較可能發現新字的(疑似)異體字,請將之記於新字表異體字欄,必要時可用來替代新字。

(4) 累計字頻:造字管理小組裝妥新字篩檢檔,此檔含有歷來發現的新字而未歸於公用造字者,與其對應的新字表叫新字總表。執行輔助程式,一面累計新字表諸字字頻,一面在新字表上標記新字總表字號。如找到從來未遇的字,同時將其字型及字號登錄於新字總表。

(5) 決定處理方式:按新字篩檢檔的字頻排序,選字頻最高者為公用造字。把這些字由累計用新字篩檢檔及新字總表剔除,其餘的字由資料建製單位,研判處理方式。

(6) 造字:依字形,實際製作新字。

(7) 修訂已完成資料庫:其他已完成的資料庫,可能受到新公用造字的影響。其新字表如果含這些新公用造字,應適當加以處置 。


Page 5 of 6
上一頁

論文目錄

下一頁

文獻處理實驗室