文獻處理實驗室 論文目錄

中國古籍整理研究出版現代化國際會議•北京 1995年7月22-24日

古籍校讀工具
「中文文獻處理系統」的設計

Page 5 of 5

陸、CDP之雛型

綜合參、肆兩節關於文件字串與科文的討論,可把古籍分析成字串與知識結構兩大部分【註十。科文為樹狀結構式的知識結構,至於經、疏、鈔、解、講、演等則為不同類別的字串,這些字串於本系統中一概稱為文件。例如《般若波羅蜜多心經講記》可以分解成一個知識結構(科文)及兩個文件(經文與講解)。

為了處理這些知識結構與文件,CDP系統分為知識結構、文件與目錄三大部分(參考圖六、圖七)。知識結構夾與文件夾可存放選取的知識結構與文件,透過目錄夾則可選取、新增、刪除知識結構與文件,並可建立彼此間的關聯。

目前CDP中的文件只用了一種表示法,即為輸入字串的形式(如肆之一所述)。換言之,計算機內還沒有一套制式將文件各部份自動劃分的方法。在處理文件時目前是先將文件分為原文、注疏、釋譯等不同之文件,各個輸入系統內,再以知識結構將之鉤連。系統中還有一個編輯器,可新增、刪除及搬移樹狀結構的節點。至於文件字串的編輯,目前須利用系統外的編輯器編輯。一旦選取相關聯的樹狀結構與文件後,即可進行標誌或對照。所謂標誌即是描述樹狀結構節點和文件字串間的對應。

由於一個文件字串可能有兩個以上相關聯的知識結構,標誌時並不在文件字串中加入任何標誌符號,而只記錄對應字串的位置和長度。所以一個字串不只可對應到不同的知識結構,也可以對應到同一個知識結構的不同節點。一個節點雖然可對應到不同的文件,但是對於一個文件,目前只能對應其中的一個字串,往後系統將會允許對應多個字串。當文件字串有所增減時,原先的標誌就會受到影響,本系統也能對受影響的標誌作等距離修正。

CDP中之知識結構夾與文件夾

圖六:CDP中之知識結構夾與文件夾

CDP中之目錄夾

圖七:CDP中之目錄夾

除了知識結構和文件字串的對照外,任何兩個字串也可比較異同。目前系統中尚未建立如表三中的轉換程序,而是即時計算出兩個字串的最大共同子字串(largest common substring),而這個子字串即暫定為這兩個字串的相同部分。我們也曾經將本系統的標誌轉換成SGML(Standard Generalized Markup Language 即ISO 8879,1986)文件,但是這些轉換功能目前尚未和系統整合。【註十一至於CDP其他的應用,請參考本會中陳昭珍王梅玲等發表的文章。

本系統是在微軟中文視窗3.1(Microsoft Window Chinese Version 3.1)上,應用Visual Basic 3.0 撰寫而成。下一步的工作除了加掛中文全文搜尋引擎(search engine)以利全文檢索外,還會再發展新的知識結構以便對文件內容作更深入的分析。至於CDP的外觀和運作方式,則請參觀現場展示,茲不贅述。

柒、結語

本文呈現的,是一種處理古籍的方法。我們用的例子雖然是佛經,但是只要古籍有一較詳盡的目錄,或輟其主題、眉批、評語......等於原目錄之內,即可構成一類似科文的結構,而即適用於本文所提出之系統。

由於本研究計劃還在進行中,計算機多版本文件的資料結構尚未完全定案,所以在本文中未作詳細之介紹。這部份留待以後再撰文報告。然而,多版本文件資料結構的設計考量,在本文已有詳細的討論和舉例,可資讀者指正。


註十】 請參考陳昭珍博士論文《古籍超文件全文資料庫模式的探討》台灣大學 圖書館學研究所 1994年12月。

註十一】 請參照謝清俊《電子佛典中處理方中文版本的方法》中研院 資訊所 1994年5月並發表於第五屆中日韓文獻處理會議(台北)。


Page 5 of 5
上一頁

論文目錄

下一頁

文獻處理實驗室