文獻處理實驗室 專案計畫

行政院科技顧問組 委辦研究計劃 1998年2月

第十一章    漢字的構字規律和解決缺字問題的方法

Page 8 of 10

捌、漢字的構字系統

每個字形的構字式都不相同所以它可用作字形的識別碼。用構字式作字形碼最大的好處是它是一個封閉系統:只要有一個封閉的字根集合配以〔表四〕的規則就行了。如此便可省去成千上萬的碼位。《交大字根系統》用496個字根就能產生48713字形的碼並且還有不需要修改系統就能對付新字或缺字的彈性就是最好的例子[圖三]所示。其次構字式是一種知識表達它不僅較數字碼易讀易懂所孕藏的構字知識更有利於應用程式的處理。然而它的缺點是構字式長短不一也嫌它太長以致用起來較不經濟。

部件序或字根序較構字式簡潔許多用它們來替代構字式是很自然的想法。以《中文電腦基本用字》的9122個字形加上629個部件,457個字根亦可產生48713個字形請參考[圖四]。此時9122個形只用一字碼而其餘約4萬字每個構字序卻可簡潔。換言之可用漢字形標來表示剩下的四萬字形每個字形之長度僅二或三個字碼。由於9122個字形的累積使用頻率已高於99.9%,餘下千分之一以下的機會用較長的碼對系統之效率影響極為有限。所以善用構字式實是改善目前交換碼的一個好方法。

 交大字根系統功能示意圖

一、最佳化

[圖四]的集合並不經濟,因為此集合的使用率只有62.60%。若將常用字加入,當可提高使用率。由[圖五]可知,加入最常用的1071 字後,使用率可增加至97.31%,如此則碼位增加至3243同理,字數仍可再增加,至加入次常用字4988 字時,不僅使用率已超過99.7%,且平均碼長亦降至二位元的1.008 倍。

二、現有交換碼的重建(reengineering)

本法可與現有交換碼完全相容。現有交換碼只要提供629個碼位給部件,188給非字的字根,則可用本法。

以部件和字根構成的漢字構字系統示意圖

三、暫代碼

若字碼的長度需要保持定長,如考慮現有的軟體,則可用暫代碼。暫代碼的做法是指定一區域的碼為暫代碼。在文章中可指定用某暫代碼來代替某較長的字碼,如此一來,則整篇文章可保持定長。如何宣佈用某暫代碼來代替某較長的字碼呢?還是要用SGML。目前,要做的事是要根據Portable Document Format ( PDF )的協定,訂定中文文獻共享的規範,以供大家遵循。這問題是可解決的。


Page 8 of 10
上一頁

回目錄

下一頁

文獻處理實驗室