中央研究院資訊科學研究所 1994年4月6日 電子佛典中處理中文版本的方法 |
Page 7 of 8 |
陸、文件共享的標準形式 文獻電子化的最大好處,就是可以讓大家充份共享。若把文獻比作資源或是財富,這種財富是不會因共享而減少的,正是所謂:「已所予人已愈有」。如果大家各自擁有的電子文獻可以都拿出來共同享用,那麼,每個人都會變得極為「富有」,國家整體力量也為之大增。反之,若是每個人死抱著自已有的來圖利,就大大屑弱了文獻財富的流通,每個人都因此而「窮困」。所以,做電子文獻,必須要注意到共享的問題。 文獻若要共享,必須要克服一些問題。首先,它要能夠在電子通信網路上流通;其次,他的內容要能夠突破時空的限制,也就是說無論是對認識或不認識的人,無論他在什麼地方,無論他是處於現在或是未來,都要能夠解讀文獻的內容。由於這些緣故,我們必須遵從一些文獻表達的標準來呈現我們的文獻,而這些標準就是 ISO 8879 SGML(Standard Generalized Markup Language ,1986)和它相關文件所定訂的事。以下,就讓我們用例子來說明如何用 SGML來表達多版本文件及其科文。 SGML是用文件類別定義(Document Type Definition,簡稱DTD)來描述文件的結構和語意信息。以佛經之DTD而言,即前述之科文。至於設計用來描述版本轉換關係的 DTD ,我們認為必需考慮接收端可處理性、交換能力和目視的可讀性。版本轉換的關係,可以用 SGML中所訂定的 Process Instruction 、Link Process加以處理,但是如果接收端不能處理這兩種特別的 SGML 功能,就無法交換和共享。再者,對於版本差異的信息,原可以直接放入正字串的文句之間,但是如此一來正字串變得極不易閱讀。因此我們用取代、增、刪、互換四種標誌描述之,並專為使用人設計如表三的轉換程序,與經文分開,這麼做不僅增加可讀性,更方便版本的管理。標誌後的佛經,經由SGML編譯器驗証後即可經由序化(SDIF Packer)進行網路上的傳遞和共享。 《心經》的整個科文,包括「總釋名題」和「正釋經文」,寫成 DTD形式後如圖六所示。圖中英文詞彙和符號全沿用 ISO 8879 之規定,請參照該標準之說明。圖七中(A)顯示的是經過 SGML標誌後之鳩摩羅什本《心經》,而(B)是將鳩本轉換為玄奘本的標誌表達方式。圖六和圖七中呈現的 SGML形式,可從圖五之運作中自動產生。
|
Page 7 of 8 |