談古籍檢索的字形問題 6-3

三、時下的字形與文獻檢索

一般而言，目前中文文獻檢索的方式都是利用字形，電腦只會比對字形，不會比對字！這不能不說是非常粗糙的、蠻不講理的檢索方式。電腦不會判斷異體字，這是眾所周知的，所以，若要檢索出可能的異體字，就全靠使用者了，然而，人的腦子卻又是極不容易詳舉所有的異體字。其實，人們要檢索的，大都是和文獻的內容有關的事物；所以，最好是能依句子、片語或詞的語義來檢索，然而目前只能用字串來檢索──說得更正確些應該是字形串。固然，句子、片語和詞皆由字構成，有其語義關連的方便處，但反過來說，若是電腦的文字知識不夠，像是不會認識異體字，那麼，句子、片語和詞也要受到連帶拖累。所以，解決字形問題，即在電腦中要明白的界定字和字形，使之能夠分辨處理，並將異體字的關係清楚地表達在電腦中，是做好檢索和文獻處理最基本，也是最重要的工作。

目前，電腦裏有的字型，是漢隸以後的印刷字體；從時間上來看，只適合處理漢以後文獻，從其形看來，不甚適合處理人工書寫的文獻。若從版本上來看，各時代旳字形，各地的刻工，均有些許字形上的變化，這些都會造成字形處理的難題。譬如，敦煌文獻以及出土的歷代碑文，這些字形都不是目前電腦能夠應付了的。甚至四庫全書，雖是官方抄本，也難免有字形變化。如果要徹底解決字形變化的問題，勢必要建立一個時空座標，把不同時代、不同地區的字形變化安置在這個座標上，才能提供足夠的字形信息，讓電腦能順利地處理不同時空的珍藏文獻。這時空座標，也可不限於中國，凡漢字家族成員，均可概括在內。

要建立這樣一個座標的漢字體系，自非一蹴可幾。然而在珍藏文獻的數位化過程中，如果能有良好的軟體工具，把一本一本書的字形蒐集整理，長此以往的累積就是建立這個體系的一個可行之道。這麼做，不只可以促進字形的共享和利用，也將有益於數位文獻之流通。這是將珍藏文獻數位化過程中，大家可以考慮來施行的事。

現在用電腦處理珍藏文獻是很痛苦的事，市面上的字型和古代字形有很大的差異；如現在叫仿宋體的字形事實上已不是傳統仿宋體了，尤其是標楷體公佈後，有些廠商竟據以修正仿宋字形，簡直是把設計字體的原則和體例都攪亂了。更有甚者，有些字改、有些又沒改，真一個亂字了得！現在要找一個字集和傳統相近的，選來選去似乎只有『明體』比較接近。然而，明體卻是日本的設計（不是明朝的字體），國內字形之亂一致於此，豈不哀哉？