行政院科技顧問組
委辦研究計劃 1998年2月
第十一章 漢字的構字規律和解決缺字問題的方法 |
Page 6 of 10 |
陸、字形結構的表達與呈現
讓我們先用例子,來說明一些名詞和符號,以及構字信息在電腦中的表達方式。〔圖二〕最右一枝中的一些字在電腦中的表達如下:
[圖二]:文字孳乳之例 這些式子稱為「構字式」,其中 、、分別表示橫連、直連、包含等定位符號。電腦可依構字式,逐次追蹤以消去式中的字或部件,而得到完全以字根表示該字構成的「字根構字式」。如下:礡](^鮸芋^礡]e))灕=(离隹)= =礡]((B韙縑^鮸芋^礡]礡]Bw))) =礡]((B鞢]凵I))鮸芋^礡]礡]Bw)))上式中的「灕」是八個字根構成的,若省去定位符號,則可寫為: 上式稱為灕的「字根序」。比照此法,上式也可將定位符號省略,省略後的式子稱「部件序」,或「字根序」。 構字式中擁有字形結構完整的資料,部件序和字根序則否。雖然如此,字根序的判別能力還是很強的,在林樹字集中,只有八對字沒法以字根序判別,如(唄、員)。是故在判別字時,用字根序不失為一良法,它比構字式單純得多。可是,在實用上它還是嫌太長。部件序雖然所含的字形信息最少,但是它最簡潔:通常只有二個部件(偶有三個),而且省略的一個定位符號絕大部份可由前後部件的性質中判斷出來(用電腦)。所以,用它來表示所缺的字是很方便的。 我們可以把一個字集中所有字形的構字式放在字形資料庫裡,這樣便完整地將該字集的字形信息(或知識)放入了電腦。以《中文電腦基本用字》為例,共有9756個構字式,其中8529個屬字集的,593個屬異體字,629個屬部件的。若將該字集中對映的簡化字也放進去,則有2284個屬異體字的構字式,部件加多了35個共計664個,而8529個屬字集的依舊不變,總計11477個構字式。 |