文獻處理實驗室 論文目錄

中央研究院
古籍全文資料庫的發展概要

Page 2 of 6

壹、前言

自從科技高速發展以來,人文和科技逐漸乖離,在社會中似乎形成了兩個完全陌生且不相往來的團體。在國外,史諾教授一本《兩種文化》的小書【註一】,毫不留情的痛陳此弊,引起了西方世界極大的關切。持續至今,如何調和人文和科技這兩個領域,仍然是西方國家內政上的重要課題。反觀國內,由於我國文化悠久深厚,累積本來豐富,再加上近數十年來對科技生吞活剝地急起直追,使得人文和科技的鴻溝遠比西方國家為大。明顯的徵兆是古代文獻離我們日常生活越來越遠。換言之,我們數千年人文的累積竟越來越無助於時下生活中的問題。

有鑑於此,為了中華文化的延續,務必要使古籍能活出現代風貌,不可任其在科技的洪流中式微沒頂,而解決的方法,則是將古籍以電子媒體表達。這就是中央研究院(以下簡稱本院)在1984年7月1日開始推動史籍自動化計劃的初衷。

電子媒體有極優越的性質。古籍的電子版本可無限地複製,且幾無複製的成本。於是,一旦電子古籍開發成功,它就是取之不盡、用之不竭的資源,可供全體人民共享。若有四通八達的電腦網路,則電子古籍可以瞬息千里,也幾乎不須花錢。於是,沒有運輸和分配的問題。再者,資料匯集後會產生新的訊息,經相互鉤稽參照,能發前人所未見,對研究工作非常重要。但是,古籍的匯集異常困難,不僅因量多,而且因原本希少,要匯集大量古籍原本加以整理研讀,光靠人力是幾乎不可能的事,而電子版本卻可輕易做到。此外,它無損耗,不需保養,不怕遺失,儲存方便,體積小,再加上可以用計算機做高速的檢索和種種的應用和處理,古籍的電子化實是使古籍活出現代風貌最佳、也是唯一的選擇【註二】。

本院處理古籍的計劃並不限於只使用全文資料庫技術,有許多資料是用關聯式資料庫處理的。諸如,1985年10月開始試做的「漢代墓葬綜合研究資料庫」,1986年2月的「台灣土著語言資料庫」,1986年4月的「台灣日據時代戶籍資料庫」,1987年1月的「清代竹塹地區土地申告書資料庫」,以及1989年計算中心所做的「說文解字和玉篇資料庫」等等。也有利用影像處理技術所做的古籍資料庫,如傅斯年圖書館發展的「善本書影像資料庫」,目前已完成該館近半數善本書的典藏,並已開放使用。這些資料庫雖非本文報告的重點,然而在語文處理技術上和全文資料庫是相輔相成的。

本文以下將先對已完成的及正在建構中的全文資料庫作一綜覽。之後,再介紹製作全文資料庫所發展的一些技術,並討論些製作與管理全文資料庫上相關的問題。


註一】史諾(C.P.SNOW)在1959年發表了《The Two Cultures》一書引起世人的注意。之後,在1964年增加了一些對外界意見的回響,更版為《The Two Cultures and A Second Look》,目前可得之版本為後者。

註二】 關於電子文件的性質敘述,請參關謝清俊〈電子佛典的意義〉人生雜誌第147期,p32-39 1995,11.1及
〈談資訊的定義與性質〉, 資訊科技與社會轉型學術研討會, 1996年12月20日。


Page 2 of 6
上一頁

論文目錄

下一頁

文獻處理實驗室