文獻處理實驗室 論文目錄

中央研究院
古籍全文資料庫的發展概要

Page 4 of 6

參、相關技術的開發

中文全文檢索系統(CTP/FTMS)是在UNIX作業系統下開發的,歷經多次版本的修訂。目前我們推荐使用[表三]的規格來裝設此系統製作的資料庫和端末設備。

CTP的文件擷取方式(access method)非常單純,主要用的技術是字串比對(string matching)。比對時對字串的長度和數目沒有任何限制,而它能將設定範圍內所有文件中匹配的字串全部找出來並加索引。比對時對字串的內容亦無限制,只要是系統字碼表中(我們用BIG-5)任何的字(character)都行。所以,理論上英文和標點符號等等也是可以的。只是英文的詞(word)有種種字尾及自身不規則的變化,我們未加處理,是故對英文檢索的能力甚有限。比對的速度是經精心設計的。目前在486(33MHZ)中平均每秒約可處理25萬字。這是連做索引等工作全部一起計算的「單位時間內的產量」(throughput)。若在SUN工作站中,則可達每秒70萬字以上。

由於字串比對的速度極為優越,整個系統可以不必預作索引,要查詢時現場做索引也不慢,且用過即可捨棄。因此,節省了大量空間,並省去系統更新資料時必須重作索引的麻煩事。但是,本系統也並非不可預加索引,預加索引後查詢的速度可不太受文獻大小的影響,查閱全部二十五史的反應時間在二秒左右,然而預加索引卻必須付出儲存空間及資料更新時維護的工作代價。索引、排除字集(Not in this word list)和邏輯關係(或OR,且AND,且非AND NOT),以及網路功能等是由CTN進化到FTMS後所增的功能。此系統現有WWW(World Wide Web)版的檢索界面(1994年底完成),可由本院的主畫面(WWW Home Page)切入,地址(URL)為http://www.sinica.edu.tw

CTP/FTMS 保存了原始文件的版面訊息,如頁碼、行次。也保存了原始文件的文件結構,如標題、篇、章、節、小節、段落、註解等等。為了要使計算機能了解這些訊息,在打字校對好的資料中,必須加上些標誌以使計算機能認得出上述的部件。有些標誌是在打字時,就訂在打字規則中的,如換行及頁碼。有些可以用程式偵察出來作自動標誌的,例如一般的段落。但是有些卻需要在打校之後用人工加上去,如篇、章等。因此打校好的資料,須要再經過「標誌」這一層工作,才可以輸入到FTMS去建構資料庫。輸入到FTMS後就一切都自動了,FTMS的輸出就是讀者可以立刻使用的全文資料庫。本系統的<標誌規則>,請參照[表四]。

由上觀之,要做資料庫,其實步驟甚單純,即在選定文獻後,經過繕打、校對、標誌後,即可上FTMS測試,若無毛病,資料庫即已大功告成。但是,從工作細節來說,仍有許多「經驗之談」(know how)是不吃過虧不會注意的,茲將這些經驗之談詳述如下兩小節中,其中最麻煩的是新造字的管理,這是目前字碼設計不良的後果。


Page 4 of 6
上一頁

論文目錄

下一頁

文獻處理實驗室