文獻處理實驗室 專案計畫

行政院科技顧問組 委辦研究計劃 1998年2月

第十一章    漢字的構字規律和解決缺字問題的方法

Page 6 of 10

陸、字形結構的表達與呈現

讓我們先用例子來說明一些名詞和符號以及構字信息在電腦中的表達方式。〔圖二〕最右一枝中的一些字在電腦中的表達如下:

1. 灕=臕驉@2. 離=离

3. 璃=王 4. 擒=繨V

5. 噙=口 6. 离=^

7. 禽=]鵖獺@8. 隹=e 

9. eBwg10.^=B韙

11. 凶=凵It

文字孳乳之例

[圖二]:文字孳乳之例

這些式子稱為「構字式」,其中分別表示橫連、直連、包含等定位符號。電腦可依構字式,逐次追蹤以消去式中的字或部件,而得到完全以字根表示該字構成的「字根構字式」。如下:

灕=(离隹)
 =礡](^鮸芋^礡]e))
 =礡]((B韙縑^鮸芋^礡]礡]Bw)))
 =礡]((B鞢]凵I))鮸芋^礡]礡]Bw)))

上式中的「灕」是八個字根構成的若省去定位符號則可寫為:

灕=BI凵禸Bw g 

上式稱為灕的「字根序」。比照此法上式也可將定位符號省略省略後的式子稱「部件序」或「字根序」。

構字式中擁有字形結構完整的資料部件序和字根序則否。雖然如此字根序的判別能力還是很強的在林樹字集中只有八對字沒法以字根序判別如(唄、員)。是故在判別字時用字根序不失為一良法它比構字式單純得多。可是在實用上它還是嫌太長。部件序雖然所含的字形信息最少但是它最簡潔:通常只有二個部件(偶有三個)而且省略的一個定位符號絕大部份可由前後部件的性質中判斷出來(用電腦)。所以用它來表示所缺的字是很方便的。

我們可以把一個字集中所有字形的構字式放在字形資料庫裡這樣便完整地將該字集的字形信息(或知識)放入了電腦。以《中文電腦基本用字》為例共有9756個構字式其中8529個屬字集的,593個屬異體字,629個屬部件的。若將該字集中對映的簡化字也放進去則有2284個屬異體字的構字式部件加多了35個共計6648529個屬字集的依舊不變總計11477個構字式。


Page 6 of 10
上一頁

回目錄

下一頁

文獻處理實驗室