珍藏文獻整理與資訊科技應用研討會 1997年4月21日 談古籍檢索的字形問題 |
Page 5 of 6 |
五、其他相關問題 有一些異體字是須在特定的語意情境下才會發生的,例如:「淳樸」之於「純樸」,「十元」之於「拾元」,「梅雨」之於「霉雨」等。在語言學中,稱這些為異體詞。據《現代漢語詞典》及《新華字典》的收集,這類異體詞約有一千一百對左右。這異體詞產生的檢索問題,目前的系統雖無解,但解起來並不困難,只要將異體詞列表存入電腦中,便可寫簡單的程式處理。然而,若是慮及歷代的珍藏文獻,異體詞的數目就可能不止於此,這是處理古文獻時應留心收集的重要資料。其實,若電腦中有古文獻的索引典,異體詞是可以歸併入同義詞來處理的。 此外,古籍的標點方式和白話文不同,珍藏的古籍中可能有複雜的句讀符號(甚至包括幾種彩色和形狀),也可能有特殊的標示符號(如大正藏中的句法標示)。若是不能了解這些符號的用法和規則,則亦將造成檢索上的障礙或錯誤。所以,如何將這些格式用大家統一的制式格式表達出來,就成為解決這類檢索問題的前題條件。一個方法是用SGML或HTML將其構成(如DTD)及各種符號的標示(tagging)描述出來,讓大家遵循採用。順便一提的是古籍的版面格式問題,如眉批,校勘,注疏等,這些體例所產出的問題,亦可如上用SGML或HTML來設法解決【6,7】。 |