文獻處理實驗室 論文目錄

珍藏文獻整理與資訊科技應用研討會 1997年4月21

談古籍檢索的字形問題

Page 3 of 6

三、時下的字形與文獻檢索

一般而言目前中文文獻檢索的方式都是利用字形電腦只會比對字形不會比對字!這不能不說是非常粗糙的、蠻不講理的檢索方式。電腦不會判斷異體字這是眾所周知的所以若要檢索出可能的異體字就全靠使用者了然而人的腦子卻又是極不容易詳舉所有的異體字。其實人們要檢索的大都是和文獻的內容有關的事物;所以最好是能依句子、片語或詞的語義來檢索然而目前只能用字串來檢索──說得更正確些應該是字形串。固然句子、片語和詞皆由字構成有其語義關連的方便處但反過來說若是電腦的文字知識不夠像是不會認識異體字那麼句子、片語和詞也要受到連帶拖累。所以解決字形問題即在電腦中要明白的界定字和字形使之能夠分辨處理並將異體字的關係清楚地表達在電腦中是做好檢索和文獻處理最基本也是最重要的工作。

目前電腦裏有的字型是漢隸以後的印刷字體;從時間上來看只適合處理漢以後文獻從其形看來不甚適合處理人工書寫的文獻。若從版本上來看各時代旳字形各地的刻工均有些許字形上的變化這些都會造成字形處理的難題。譬如敦煌文獻以及出土的歷代碑文這些字形都不是目前電腦能夠應付了的。甚至四庫全書雖是官方抄本也難免有字形變化。如果要徹底解決字形變化的問題勢必要建立一個時空座標把不同時代、不同地區的字形變化安置在這個座標上才能提供足夠的字形信息讓電腦能順利地處理不同時空的珍藏文獻。這時空座標也可不限於中國凡漢字家族成員均可概括在內。

要建立這樣一個座標的漢字體系自非一蹴可幾。然而在珍藏文獻的數位化過程中如果能有良好的軟體工具把一本一本書的字形蒐集整理長此以往的累積就是建立這個體系的一個可行之道。這麼做不只可以促進字形的共享和利用也將有益於數位文獻之流通。這是將珍藏文獻數位化過程中大家可以考慮來施行的事。

現在用電腦處理珍藏文獻是很痛苦的事市面上的字型和古代字形有很大的差異;如現在叫仿宋體的字形事實上已不是傳統仿宋體了尤其是標楷體公佈後有些廠商竟據以修正仿宋字形簡直是把設計字體的原則和體例都攪亂了。更有甚者有些字改、有些又沒改真一個亂字了得!現在要找一個字集和傳統相近的選來選去似乎只有『明體』比較接近。然而明體卻是日本的設計(不是明朝的字體)國內字形之亂一致於此豈不哀哉?


Page 3 of 6
上一頁

論文目錄

下一頁

文獻處理實驗室