文獻處理實驗室 論文目錄

中央研究院
古籍全文資料庫的發展概要

Page 3 of 6

貳、古籍的全文資料庫

所謂全文資料庫,是以原文件的所有文字為素材,以儘量保存文件版面的方式所建構的資料庫。在本節中所列的各個資料庫,都是用同一個軟體工具,即「中文全文檢索系統」【註三】所做成的。所以它們具有相同的資料庫性質與功能,也用相同的檢索語言,對使用者而言相當方便。中文全文檢索系統把中文書籍製成全文資料庫, 並提供檢索、閱讀兩個主要功用。它藉著層級式的(hierarchical)目錄來反應書本的章、節、段落等結構, 使用者得以據其調閱正文, 或訂定檢索的範圍等。此系統也保留原書的頁碼和行次, 一則用來調閱正文, 再則用於報告檢索詞的出處, 方便使用者參照書本。正文具備橫、直兩種顯示方向, 編排的格式儘可能呼應原書, 且能夠區別註文、補文、贅文等與原文。表格的呈現與檢索排版雖較為繁複,目前已經克服。

檢索條件包含一個或多個字詞, 乃至高達數百詞, 亦無不可。每個詞的前後得附加排除字集,以除去不是要找尋的詞彙。參照檢索結果逐次修正排除字集,可以大幅提高檢索的正確率。各詞之間的關係為「或」、「且」、「且非」三者之一。檢索的範圍小至段落、大至整個資料庫, 無所不宜。也可限定範圍於特定的文素類別,如選擇正文或注釋。檢索的結果能定為含檢索詞的句子或段落, 亦得在檢索詞的前後截取定長的正文(collocation), 並按檢索詞及其前後文排序。【註四

目前本院已上線的全文資料庫,如[表一]所示,其中以史語所擁有的資料庫最多,也最龐大。最早完成的是二十五史資料庫(1990年),是史語所與計算中心共同開發完成的。資料庫內容,在[表一]之註及附表中有較詳之說明。台灣方志資料庫詳目如[表一之六]所示。

古漢語文獻資料庫的目的與其他者稍異,它是用來發展古漢語語料庫(corpus)及內容分析用的,故並未自由對外開放使用。此資料庫目前正在加標誌(markup)中。所謂標誌是把文章中隱晦的內容用明顯的特殊符號標明,其目的是便於用計算機作後繼的處理。目前語料庫所加的標誌有兩類,其一標示文件,分為篇章標誌、文章標誌和文體標誌三種;其二標示辭類。篇章和文章標誌分別標明書籍的篇章與文章結構。文體標誌則含三種論說文、三種敘述文及四種混合型文體。辭類的標誌則依古漢語語法逐辭標示【註五】,這些標誌配合著全文資料庫使用,但尚未完全定案,還在檢討改進中。古漢語語料庫計劃和資訊所文獻處理實驗室二者所發展的資料庫有研究和實驗的性質,是故其內涵與其他資料庫略有出入。

開發中的資料庫,如[表二]所示。其中仍以史語所最具規模,臺史所次之。史語所開發中的資料庫及其進度詳如[表二之一]。本院建資料庫目前的程序是先找不同的單位將原始資料各打一遍,驗收後用程式協助比對這兩份資料,此即一校。一校經改正後,進行人工二、三校,再一次改正,再四校並改正後,即完成資料登錄工作。這麼多道手續唯一的目的是確保資料的品質。了解這個工作程序,有助於了解[表二]中所示的各種進度。

從上述的情形看來,本院發展的全文資料庫製作技術已趨成熟,各所均能自行主導開發資料庫,計算中心的協助只是標誌方式的諮詢、中文造字的協調管理、建構資料庫時的機器操作,與必要的技術開發營運管理和維護而已。


註三】 在早期發展的核心檢索軟體( CTP, Chinese Text Processor)之後,陸續改進並增加了些文獻管理的功能,更名為中文全文檢索系統(FTMS, Full-Text database Management System)

註四】 關於排除字集、文素等名詞及詳細的操作方式,請參照《中文全文檢索統FTMS第三版使用指引》Jan. 1996, 中央研究院算中心

註五】 關於辭類的標誌,請參閱:張俊盛《Linguistic Markup:ROCLING Text Corpus Exchange Format》
SIGMT ROCLING, Dec. 1995


Page 3 of 6
上一頁

論文目錄

下一頁

文獻處理實驗室