中文字形資料庫的設計與應用 3-2

貳、文字與字形的制式表達

本文採用的文字與字形模式，是根據民國六十一年發表的交大字根模式【註二】增益而成的。要言之，文字是表達一種（或一群）概念的名相，是抽象的。我們可以透過媒體，例如：聲音或字形，將它呈現出來以使人可以察覺。在本文中，暫不討論字音，只考慮字形部份。

文字和字形的關係是：一個文字可以有許多不同的字形；偶爾，也有些文字會用相同的字形。所以，從數學關係來說，文字之於字形是多對多的映對，雖然大多數是一對多的關係。字形也是抽象的名相，區別字形的關鍵在於它的組成結構，亦即構字。所以一個字形可以有變化多彩多姿的風貌，然而其構字之規律卻不容更易。

印刷體的字形有一定的設計規範，遵從同一設計規範製作的一群字形屬於同一種字體。字體也是抽象的，區別它的關鍵在於設計的規範。一種字體設計，通常有些參數來決定文字呈現的大小、粗細、疏密、以及一些特殊裝飾的邊角等等。待這些參數選定之後，才能呈現出一個字形的面貌，稱為字樣。這個面貌就不是抽象的而是具體可見的了。

上述的文字、字形、字體、和字樣的關係可如【圖一】所示。所謂計算機用的文字與字形模式，就是要把這些抽象的名相和相關的構字、設計規範，以及彼此間的關係和運作規律等，用計算機能了解的形式表達出來，以便計算機能夠運用這些知識，替我們做事。

在實際運作時，這樣的系統會產生一些較複雜的表示式。例如：【圖三】的灣字。所以在設計時，我們儘量把構字規則簡化，以利執行。做法是：在組合（或分解）一個字形時，一次只用一個組合（分解）的運作，即選用橫連、直連、包涵其中之一。若還沒有分解成基本字根，則將生成的部件再分解，直到式中只有基本字根為止。由於基本字根數目不多，筆劃組合規則就依其筆劃生成的位置逐一標明。

上述的構字概念可以用簡單的數學表達，是故可以用計算機處理。在【註二】所引的各參考文件中，有詳細的敘述，請各位參考。

圖三：灣字的構成

二、字形變化的分析

根據上述的字形模式，字形的變化雖多，卻可以歸納為筆劃的變化、字根或部件的變化、和整個字的變化等三個等級。這種劃分法，筆者曾在中華民國文字學會報告過（民國78年12月）。現僅將其大要節錄如下：

(一)、筆劃的變化

A1：	有一筆劃位置改變，但文字的筆劃數和構成的字根沒有改變。例如：　→丸，𠾵 →�p，　→　，匕→鮍等。
A2：	有一筆劃尾部加勾，筆劃數和構字之字根不變。例如：不→　，鵮→月，也→　，七→七等。
A3：	有一筆劃被另一種筆劃替代，筆劃數與字根不變。例如：𧘹被　，　，，之替代，一被㨘、𧘹替代，𤹐被㨘替代等。
A4：	增多一筆，筆劃數增1。例如：者→者，𦉪→少等。
A5：	減少一筆，筆劃數減1。例如：閪→厂，䵶→次，　→眾等。
A6：	某一筆劃由另二筆劃取代，筆劃數加1。例如：匚→　，搲→　，　→　等。
A7：	某二筆劃由另一筆劃取代，筆劃數減1。例如：雨→雨，扌→了等。
A8：	某一群筆劃由另一群筆劃取代。例如：雨→雨，𡃶→　，兌→兌，育→育等。

（二）、字根或部件的變化

B1：	一字根R1由另一字根R2取代，而R1和R2的差異只是筆劃上的變化（如前述A1至A8之變化）而引起的字根變化。例如：吉→土熷口，寺→寺，產→𨉼熷袏，壬→𣄽，周→　，內→　內等。
B2：	一字根R1由另一字根R2取代，而R1和R2之差異不屬筆劃上的變化。例如：屮→𧝞熷寸，覓→不熷見，恥→耳岙止，秘→祕，雋→隹熷乃，耽→身岙冘，磚→缶岙專等。
B3：	一部件（一群字根）由另一部件取代。例如：士熷方→　，�→　，市→巿，𠳖→𠮩，灐搲熷尜→搲岙大，鳥→隹，𡃉→㞗，曲→林等。

（三）、整個文字構字的改變

C1：	字根不變而組合改變者。例如：𡂝岙𡃀→啟，廉→　，　→匯等。
C2：	由簡化而改變者。例如：為→為→亀，轉→車岙云→斉岙云。
C3：	不規則變形者。例如：　→咩，裡→裏等。

以上這種分法，是完全從字形著手劃分的。其實，尚可加注從文字學角度的觀察，例如：聲符的取代多屬字根或部件的變化（亦即屬B級函數)。這些工作，留待以後補充。

三、舉例

現在，讓我們用一個較完整的例子，以說用前述的表達方式。

假設G代表字形(Glyph)，R代表部件(Component)而R0代表字根，T代表筆劃，p和s分別代表T和R在字形中的位置(position)和大小(size)，則一個字形的組成，可用下面二個再生式(recursive equation)表示之：

Ｇ＝ΣＲ（ｐ,ｓ）.............（1）

Ｒ0＝ΣＴ（ｐ,ｓ）.............（2）

⑴（1）式的意思是：G由許多（以Σ表示）R組成，而每個R在字形中都有它特定的位置和大小（即p和s)。（1）式可重複使用，直到所有的R都化簡到R0為止。而R0，根據（2）式，可再分解為一群筆劃T，每個筆劃亦有其位置和大小的關係。

了解這些符號後，【圖四】和【圖五】即分別從兩個角度，來說明這種模式的應用。【圖四】表示的是一個文字「訛」、它的兩個字形、一些部件和字根，和基本筆劃之間的組成關係；以及字形變化所加的標識(tags)。

【圖五】是一個字根「禸」的字形孳乳樹。在圈內的是字形，沒圈的是字根或部件。圖中字形變化的標識，以虛線分別表示。

在計算機裡，【圖四】和【圖五】都是從一個結構表推導出來的。【圖四】是由字形推導到筆劃，而【圖五】則相反，由字根推導到所有相關的文字。

圖四：訛字相關的字形組成

圖五：字形孳乳樹之例

【註二】　請參照：謝清俊等＜中文字根之分析＞，交大學刊第六卷第一期 pp.112-121,1972。此外，劉達人等編著《漢字綜合索引字典》,(Asian Associates出版，美國國會圖書館卡號：790525, 1979)也採用此模式。又，此模式曾改寫為 AF11文件<On the formalization of glyph in Chinese Language>1990,2月。