文獻處理實驗室 論文目錄

珍藏文獻整理與資訊科技應用研討會 1997年4月21

談古籍檢索的字形問題

Page 4 of 6

四、字形變化的制式表達

如果只收錄漢以後的楷和仿宋兩種印刷字體國字整理小組就曾集到七萬四千餘字形。若算上漢以前的各種字體、再加上書法的變化那麼漢字字形的數目實是不勝計數。處此情境計算機要如何處理呢?字碼有那麼大的空間安放嗎?每個使用者都要背負這幾千年來所有漢字字形的沈重包袱嗎?顯然不能這樣所以必須設法以簡馭繁有系統地來表達字形信息。

要解決這個問題就必須稍深入地了解漢字的構形。將構形的規則以制式生成語法的方式表達出來是解決的方法之一譬如字形的字根式【1】就是典型的例子。然而一個字的字根式可能會太長了使用不便能不能把一個字的構形只用兩個部件(至多三個佔極少數)以及一個結構符號表示呢?答案是肯定的目前的研究顯示:只要增加約八百個部件配合一個約一千三百字的小字集就可以用上述的方法描述約一萬二千個常用的字形。當然此系統可以描述的字形實不止一萬二千但究竟多少尚待查驗。據估計五千常用字加上約一千五百個部件應至少可以描述五萬以上的字形。【2,3,4】根據這種方法描述字形的「字形資料庫」雛型業已設計完成【5】有些製作電子佛典的單位已經用它在解決佛典缺字問題。

如果做文獻檢索時能接受這樣的字形描述那麼就可解決一大部份的字形變異以及異體字相互參照檢索的問題。做珍藏文獻處理時不妨一試。


Page 4 of 6
上一頁

論文目錄

下一頁

文獻處理實驗室