四、字形變化的制式表達
如果只收錄漢以後的楷和仿宋兩種印刷字體,國字整理小組就曾集到七萬四千餘字形。若算上漢以前的各種字體、再加上書法的變化,那麼,漢字字形的數目實是不勝計數。處此情境,計算機要如何處理呢?字碼有那麼大的空間安放嗎?每個使用者都要背負這幾千年來所有漢字字形的沈重包袱嗎?顯然不能這樣,所以,必須設法以簡馭繁,有系統地來表達字形信息。
要解決這個問題,就必須稍深入地了解漢字的構形。將構形的規則以制式生成語法的方式表達出來,是解決的方法之一,譬如字形的字根式【1】就是典型的例子。然而一個字的字根式可能會太長了,使用不便,能不能把一個字的構形只用兩個部件(至多三個,佔極少數),以及一個結構符號表示呢?答案是肯定的,目前的研究顯示:只要增加約八百個部件,配合一個約一千三百字的小字集,就可以用上述的方法描述約一萬二千個常用的字形。當然,此系統可以描述的字形實不止一萬二千,但究竟多少,尚待查驗。據估計,五千常用字加上約一千五百個部件,應至少可以描述五萬以上的字形。【2,3,4】根據這種方法描述字形的「字形資料庫」雛型業已設計完成【5】有些製作電子佛典的單位已經用它在解決佛典缺字問題。
如果做文獻檢索時,能接受這樣的字形描述,那麼就可解決一大部份的字形變異以及異體字相互參照檢索的問題。做珍藏文獻處理時,不妨一試。 |