文獻處理實驗室 論文目錄

珍藏文獻整理與資訊科技應用研討會 1997年4月21

談古籍檢索的字形問題

Page 5 of 6

五、其他相關問題

有一些異體字是須在特定的語意情境下才會發生的例如:「淳樸」之於「純樸」「十元」之於「拾元」「梅雨」之於「霉雨」等。在語言學中稱這些為異體詞。據《現代漢語詞典》及《新華字典》的收集這類異體詞約有一千一百對左右。這異體詞產生的檢索問題目前的系統雖無解但解起來並不困難只要將異體詞列表存入電腦中便可寫簡單的程式處理。然而若是慮及歷代的珍藏文獻異體詞的數目就可能不止於此這是處理古文獻時應留心收集的重要資料。其實若電腦中有古文獻的索引典異體詞是可以歸併入同義詞來處理的。

此外古籍的標點方式和白話文不同珍藏的古籍中可能有複雜的句讀符號(甚至包括幾種彩色和形狀)也可能有特殊的標示符號(如大正藏中的句法標示)。若是不能了解這些符號的用法和規則則亦將造成檢索上的障礙或錯誤。所以如何將這些格式用大家統一的制式格式表達出來就成為解決這類檢索問題的前題條件。一個方法是用SGMLHTML將其構成(如DTD)及各種符號的標示(tagging)描述出來讓大家遵循採用。順便一提的是古籍的版面格式問題如眉批校勘注疏等這些體例所產出的問題亦可如上用SGMLHTML來設法解決【6,7】


Page 5 of 6
上一頁

論文目錄

下一頁

文獻處理實驗室