文獻處理實驗室 論文目錄

中央研究院資訊科學研究所 1994年4月6日

電子佛典中處理中文版本的方法

Page 4 of 8

參、體例之整理

關於各版本間互異之實際情況,有衍文、偽體、倒置、脫落、誤改、誤解、誤增、誤刪,以及簡策錯亂、篇章顛倒等多種現象,俞樾在《古書疑義舉例》中將他校書經驗歸納為37例,可稱通例【註十】。依此37例觀之,其分劃頗細,分劃之原則多涉及導致錯誤的原因。這些原因涉及文章的內容,以〈衍例〉為例,即劃分為「兩字義同者」、「兩字形似者」、「涉上下文者」、及「涉注文者」等四例。這些原因均非目前之計算機技術所易於處理者。

然而,若從注記之常例而觀之,張舜徽僅舉出十種作為常見之情況(請參照表一【註十一】)。例如其第一條:「凡文字有不同者,可注云:『某,一本作某』。」這種注記實是側重文字差異之形式,而非如俞樾之注重其內容。計算機是長於處理「形式」者,是故計算機可以協助做注記常例之比對。至於如何將常例之形式詮釋為內容的關係,則目前恐仍須靠人力而為之了。

如用計算機來處理注記之常例,則處理之規律(即其形式之變化)仍可再減。對於計算機而言,一個版本之文章,其機讀形式就是一字串(如下節說明)。若比較兩版本之異同,實即比照兩字串之同異。因此,以計算機處理字串的指令來看,只要有:增(insert)、刪(delete)、取代(replace)及互換(swap)等四者,就足夠能表示兩字串在其形式上不同之處了。若再能用移(move)或抄(copy)指令將相同之字串自一處移至他處,那麼,對張舜徽所舉之注記常例,除無法區分八與九兩例之外,均可由計算機自動處理了。


註十】同【註八】152~154頁

註十一】同【註八】180~181頁


Page 4 of 8
上一頁

論文目錄

下一頁

文獻處理實驗室