珍藏文獻整理與資訊科技應用研討會 1997年4月21日 談古籍檢索的字形問題 |
Page 3 of 6 |
三、時下的字形與文獻檢索 一般而言,目前中文文獻檢索的方式都是利用字形,電腦只會比對字形,不會比對字!這不能不說是非常粗糙的、蠻不講理的檢索方式。電腦不會判斷異體字,這是眾所周知的,所以,若要檢索出可能的異體字,就全靠使用者了,然而,人的腦子卻又是極不容易詳舉所有的異體字。其實,人們要檢索的,大都是和文獻的內容有關的事物;所以,最好是能依句子、片語或詞的語義來檢索,然而目前只能用字串來檢索──說得更正確些應該是字形串。固然,句子、片語和詞皆由字構成,有其語義關連的方便處,但反過來說,若是電腦的文字知識不夠,像是不會認識異體字,那麼,句子、片語和詞也要受到連帶拖累。所以,解決字形問題,即在電腦中要明白的界定字和字形,使之能夠分辨處理,並將異體字的關係清楚地表達在電腦中,是做好檢索和文獻處理最基本,也是最重要的工作。 目前,電腦裏有的字型,是漢隸以後的印刷字體;從時間上來看,只適合處理漢以後文獻,從其形看來,不甚適合處理人工書寫的文獻。若從版本上來看,各時代旳字形,各地的刻工,均有些許字形上的變化,這些都會造成字形處理的難題。譬如,敦煌文獻以及出土的歷代碑文,這些字形都不是目前電腦能夠應付了的。甚至四庫全書,雖是官方抄本,也難免有字形變化。如果要徹底解決字形變化的問題,勢必要建立一個時空座標,把不同時代、不同地區的字形變化安置在這個座標上,才能提供足夠的字形信息,讓電腦能順利地處理不同時空的珍藏文獻。這時空座標,也可不限於中國,凡漢字家族成員,均可概括在內。 要建立這樣一個座標的漢字體系,自非一蹴可幾。然而在珍藏文獻的數位化過程中,如果能有良好的軟體工具,把一本一本書的字形蒐集整理,長此以往的累積就是建立這個體系的一個可行之道。這麼做,不只可以促進字形的共享和利用,也將有益於數位文獻之流通。這是將珍藏文獻數位化過程中,大家可以考慮來施行的事。 現在用電腦處理珍藏文獻是很痛苦的事,市面上的字型和古代字形有很大的差異;如現在叫仿宋體的字形事實上已不是傳統仿宋體了,尤其是標楷體公佈後,有些廠商竟據以修正仿宋字形,簡直是把設計字體的原則和體例都攪亂了。更有甚者,有些字改、有些又沒改,真一個亂字了得!現在要找一個字集和傳統相近的,選來選去似乎只有『明體』比較接近。然而,明體卻是日本的設計(不是明朝的字體),國內字形之亂一致於此,豈不哀哉? |
Page 3 of 6 |