文獻處理實驗室 論文目錄

「香港中文大學新亞書院五十週年紀念-21世紀中文圖書館學術會議Nov.1999」 1999年9月30日

從全文資料庫到數位典藏─
中央研究院的發展經驗談
Page 2 of 5

壹、緣起

自從科技高速發展以來,人文和科技逐漸乖離,在社會中似乎形成了兩個完全陌生且不相往來的團體。在國外,史諾教授一本《兩種文化》的小書,毫不留情的痛陳此弊,引起了西方世界極大的關切【1】。持續至今,如何調和人文和科技這兩個領域,仍然是東西方國家內政上的重要課題。由於我國文化悠久深厚,累積本來豐富,再加上近數十年來對科技生吞活剝地急起直追,使得人文和科技的鴻溝遠比西方國家為大。明顯的徵兆是古代文獻離我們日常生活越來越遠。換言之,我們數千年人文的累積竟越來越無助於時下生活中的問題。

一、史籍自動化計劃

有鑑於此,為了中華文化的延續,而不任其在科技的洪流中式微沒頂,解決的方法則是務必要將古籍以電子媒體表達,使古籍能活出現代風貌。此即中央研究院(以下簡稱本院)推動史籍自動化計劃之初衷。1984年7月首期史籍自動化計劃由史記的食貨志開始,穫得了相當的經驗和成功。 1985年7月開始做前四史,即《史記》《漢書》《後漢書》《三國志》。1986年前四史順利完成後,便擴充至其餘各史,至1990年6月大致完成,唯不含表格,且有二千餘缺字待補。1992年9月缺字補齊。1995年3月計算中心開始補充表格部份,至1997年1月,表格部份已全部完成。

二、古籍全文資料庫

本院利用計算機處理古籍以全文資料庫的發展最受矚目【2,3】。所謂全文資料庫,是以原文件的所有文字為素材,以儘量保存文件版面的方式所建構的資料庫。目前上線的全文資料庫,總字數已超過一億八仟萬字,其所用的技術則全由院內同仁自行開發。參與製作資料庫的共有五所:史語所、臺史所、資訊所、近史所、文哲所,以及本院計算中心;院外,則有總統府國史館亦積極參與清史資料庫之開發。1995年開始,有些大學與本院發展合作關係共享古籍資料,包括國內:中山、中正、師大各大學,國外:香港中文大學、倫敦大學、史丹佛大學、密西根大學等等。

目前要做資料庫,其步驟甚單純,即在選定文獻後,經過繕打、校對、標誌後,即可上機測試,若無毛病,資料庫即已大功告成。從上述的情形看來,本院發展的全文資料庫製作技術已趨成熟,各所均能自行主導開發資料庫,計算中心的協助只是標誌方式的諮詢、中文造字的協調管理、建構資料庫時的機器操作,與必要的技術開發、營運、管理和維護而已。

三、自發成長

1990年,四千萬字的二十五史全文資料庫第一個版本,正式啟用。然而,全文資料庫開發的工作至此不但沒有停止,反而持續增加。從統計數字看,90年代初期每年約增一千萬字,至1998年之年增已近五千萬字。目前,已上線的全文資料庫的總字數累積約二億字,尚有二億五千萬字已校對打好資料在等待上線。

本院全文資料庫的這種高速成長,似乎是有政策、有組織的領導所致,其實不然,這完全是各所自動自發所匯集的結果。為了因應各所開發全文資料庫引發起的問題, 1995年成立『中央研究院漢籍電子文獻協調小組』,一年後改制為委員會,並負起規劃本院數位典藏之任務。目前所規劃的方向,已從對全文資料庫的製作轉向為對人文社會學科『數位研究環境』的開創,其中包括了開發新四庫全書、數位圖書館/博物館、漢學工作站等等構想【3】。

四、多元發展

本院處理古籍的計劃並不限定於全文資料庫技術,有許多資料是使用關聯式資料庫處理。諸如,1985年10月開始嚐試的「漢代墓葬綜合研究資料庫」,1986年2月的「台灣土著語言資料庫」,1986年4月的「台灣日據時代戶籍資料庫」,1987年1月的「清代竹塹地區土地申告書資料庫」,以及1989年計算中心所做的「說文解字和玉篇資料庫」等等。也有利用影像處理技術所做的古籍資料庫,如傅斯年圖書館發展的「善本書影像資料庫」,目前已完成該館近半數善本書的典藏,並已開放使用。近四、五年來,本院在近代史料、自然科學、語言學、社會科學和生命科學等資料庫的開發,亦有小成。這些資料庫和古籍的全文資料庫也是相輔相成、相得益彰的。有意一探的讀者,可參考本院的網站:http://www.sinica.edu.tw/ 中的「學術資源」項目。


Page 2 of 5
上一頁

論文目錄

下一頁

文獻處理實驗室