中國古籍整理研究出版現代化國際會議•北京 1995年7月22-24日 古籍校讀工具 |
Page 5 of 5 |
陸、CDP之雛型綜合參、肆兩節關於文件字串與科文的討論,可把古籍分析成字串與知識結構兩大部分【註十】。科文為樹狀結構式的知識結構,至於經、疏、鈔、解、講、演等則為不同類別的字串,這些字串於本系統中一概稱為文件。例如《般若波羅蜜多心經講記》可以分解成一個知識結構(科文)及兩個文件(經文與講解)。
為了處理這些知識結構與文件,CDP系統分為知識結構、文件與目錄三大部分(參考圖六、圖七)。知識結構夾與文件夾可存放選取的知識結構與文件,透過目錄夾則可選取、新增、刪除知識結構與文件,並可建立彼此間的關聯。 目前CDP中的文件只用了一種表示法,即為輸入字串的形式(如肆之一所述)。換言之,計算機內還沒有一套制式將文件各部份自動劃分的方法。在處理文件時目前是先將文件分為原文、注疏、釋譯等不同之文件,各個輸入系統內,再以知識結構將之鉤連。系統中還有一個編輯器,可新增、刪除及搬移樹狀結構的節點。至於文件字串的編輯,目前須利用系統外的編輯器編輯。一旦選取相關聯的樹狀結構與文件後,即可進行標誌或對照。所謂標誌即是描述樹狀結構節點和文件字串間的對應。 由於一個文件字串可能有兩個以上相關聯的知識結構,標誌時並不在文件字串中加入任何標誌符號,而只記錄對應字串的位置和長度。所以一個字串不只可對應到不同的知識結構,也可以對應到同一個知識結構的不同節點。一個節點雖然可對應到不同的文件,但是對於一個文件,目前只能對應其中的一個字串,往後系統將會允許對應多個字串。當文件字串有所增減時,原先的標誌就會受到影響,本系統也能對受影響的標誌作等距離修正。 |
圖六:CDP中之知識結構夾與文件夾
圖七:CDP中之目錄夾
除了知識結構和文件字串的對照外,任何兩個字串也可比較異同。目前系統中尚未建立如表三中的轉換程序,而是即時計算出兩個字串的最大共同子字串(largest
common substring),而這個子字串即暫定為這兩個字串的相同部分。我們也曾經將本系統的標誌轉換成SGML(Standard
Generalized Markup Language 即ISO 8879,1986)文件,但是這些轉換功能目前尚未和系統整合。【註十一】至於CDP其他的應用,請參考本會中陳昭珍及王梅玲等發表的文章。
本系統是在微軟中文視窗3.1(Microsoft Window Chinese Version 3.1)上,應用Visual Basic 3.0 撰寫而成。下一步的工作除了加掛中文全文搜尋引擎(search engine)以利全文檢索外,還會再發展新的知識結構以便對文件內容作更深入的分析。至於CDP的外觀和運作方式,則請參觀現場展示,茲不贅述。 柒、結語 本文呈現的,是一種處理古籍的方法。我們用的例子雖然是佛經,但是只要古籍有一較詳盡的目錄,或輟其主題、眉批、評語......等於原目錄之內,即可構成一類似科文的結構,而即適用於本文所提出之系統。由於本研究計劃還在進行中,計算機多版本文件的資料結構尚未完全定案,所以在本文中未作詳細之介紹。這部份留待以後再撰文報告。然而,多版本文件資料結構的設計考量,在本文已有詳細的討論和舉例,可資讀者指正。 【註十】 請參考陳昭珍博士論文《古籍超文件全文資料庫模式的探討》台灣大學 圖書館學研究所 1994年12月。 【註十一】 請參照謝清俊《電子佛典中處理方中文版本的方法》中研院 資訊所 1994年5月並發表於第五屆中日韓文獻處理會議(台北)。 |