文獻處理實驗室 論文目錄

第六屆中國文字學全國學術研討會 1995年4月29-30日

中文字形資料庫的設計與應用

Page 2 of 3

貳、文字與字形的制式表達

本文採用的文字與字形模式,是根據民國六十一年發表的交大字根模式【註二】增益而成的。要言之,文字是表達一種(或一群)概念的名相,是抽象的。我們可以透過媒體,例如:聲音或字形,將它呈現出來以使人可以察覺。在本文中,暫不討論字音,只考慮字形部份。

文字和字形的關係是:一個文字可以有許多不同的字形;偶爾,也有些文字會用相同的字形。所以,從數學關係來說,文字之於字形是多對多的映對,雖然大多數是一對多的關係。字形也是抽象的名相,區別字形的關鍵在於它的組成結構,亦即構字。所以一個字形可以有變化多彩多姿的風貌,然而其構字之規律卻不容更易。

印刷體的字形有一定的設計規範,遵從同一設計規範製作的一群字形屬於同一種字體。字體也是抽象的,區別它的關鍵在於設計的規範。一種字體設計,通常有些參數來決定文字呈現的大小、粗細、疏密、以及一些特殊裝飾的邊角等等。待這些參數選定之後,才能呈現出一個字形的面貌,稱為字樣。這個面貌就不是抽象的而是具體可見的了。

上述的文字、字形、字體、和字樣的關係可如【圖一】所示。所謂計算機用的文字與字形模式,就是要把這些抽象的名相和相關的構字、設計規範,以及彼此間的關係和運作規律等,用計算機能了解的形式表達出來,以便計算機能夠運用這些知識,替我們做事。

圖一:文字、字形、字體和字樣的關係

文字、字形、字體和字樣的關係

一、字形的表達

漢字由部件 (component) 構成。此構成是有規律的,可歸納為簡單的制式規則。在交大字根系統中,將漢字字形以橫連(H),直連(V),和包涵(C)分解,得到496個基本的部件,稱為字根。這群字根和組合的規則(亦即分解的規則)可以組成48713個漢字,除了一些類似圖騰的古字外,幾乎可組成所有的漢字,且具有創制新字的功能。所以我們採用這套字根系統作為設計的基礎。

其次,字根由筆劃組成。印刷體設計所用的基本筆劃數目約三十至一百餘不等。其實,三十幾個基本筆劃已足資辨認,用到一百多個筆劃只是為了做好細部的面貌以美化字樣而已。我們的系統重點在辦認字形,所以用的筆劃不多(事實上,可由使用者自己選擇筆劃之多寡)。字形、部件、字根、和筆劃的關係如【圖二】所示。

圖二:字形、部件、字根和筆劃的圖係

字形、部件、字根和筆劃的圖係

 

在實際運作時,這樣的系統會產生一些較複雜的表示式。例如:【圖三】的灣字。所以在設計時,我們儘量把構字規則簡化,以利執行。做法是:在組合(或分解)一個字形時,一次只用一個組合(分解)的運作,即選用橫連、直連、包涵其中之一。若還沒有分解成基本字根,則將生成的部件再分解,直到式中只有基本字根為止。由於基本字根數目不多,筆劃組合規則就依其筆劃生成的位置逐一標明。

上述的構字概念可以用簡單的數學表達,是故可以用計算機處理。在【註二】所引的各參考文件中,有詳細的敘述,請各位參考。

圖三:灣字的構成

二、字形變化的分析

根據上述的字形模式,字形的變化雖多,卻可以歸納為筆劃的變化、字根或部件的變化、和整個字的變化等三個等級。這種劃分法,筆者曾在中華民國文字學會報告過(民國78年12月)。現僅將其大要節錄如下:

(一)、筆劃的變化

A1:

有一筆劃位置改變,但文字的筆劃數和構成的字根沒有改變。例如: →丸, →p, → ,匕→熊央C

A2:

有一筆劃尾部加勾,筆劃數和構字之字根不變。例如:不→ ,s→月,也→ ,→七等。

A3: 有一筆劃被另一種筆劃替代,筆劃數與字根不變。例如:A被 ,  , , 之替代,一 被G、A替代,v被G替代等。
A4: 增多一筆,筆劃數增1。例如:→者,菕髐硉央C
A5:

減少一筆,筆劃數減1。例如:P→厂,X→次, →眾等。

A6:

某一筆劃由另二筆劃取代,筆劃數加1。例如:匚→ ,→ , → 等。

A7: 某二筆劃由另一筆劃取代,筆劃數減1。例如:→雨,矷髐F等。
A8:

某一群筆劃由另一群筆劃取代。例如:→雨,|→ ,兌→→育等。

(二)、字根或部件的變化

B1:

一字根R1由另一字根R2取代,而R1和R2的差異只是筆劃上的變化(如前述A1至A8之變化)而引起的字根變化。例如:吉→土韙f,→寺,產→E,壬→慼A周→ ,→ 內等。

B2:

一字根R1由另一字根R2取代,而R1和R2之差異不屬筆劃上的變化。例如:→X韙o,覓→不顐ㄐA恥→耳礞謘A秘→祕,雋→隹韙D,耽→身藙U,磚→缶繸M等。

B3:

一部件(一群字根)由另一部件取代。例如:士韙銵驉@,矷驉@,市→巿,k→驉A]→礞j,鳥→隹,n`,曲→林等。

(三)、整個文字構字的改變

C1:

字根不變而組合改變者。例如:龤鰼牷A廉→ , →匯等。

C2:

由簡化而改變者。例如:為→→苤A轉→車礞炕g礞炕C

C3:

不規則變形者。例如: →咩,裡→媯央C

以上這種分法,是完全從字形著手劃分的。其實,尚可加注從文字學角度的觀察,例如:聲符的取代多屬字根或部件的變化(亦即屬B級函數)。這些工作,留待以後補充。

三、舉例

現在,讓我們用一個較完整的例子,以說用前述的表達方式。

假設G代表字形(Glyph),R代表部件(Component)而R0代表字根,T代表筆劃,p和s分別代表T和R在字形中的位置(position)和大小(size),則一個字形的組成,可用下面二個再生式(recursive equation)表示之:

G=ΣR(p,s).............(1)

R0=ΣT(p,s).............(2)

ぇ(1)式的意思是:G由許多(以Σ表示)R組成,而每個R在字形中都有它特定的位置和大小(即p和s)。(1)式可重複使用,直到所有的R都化簡到R0為止。而R0,根據(2)式,可再分解為一群筆劃T,每個筆劃亦有其位置和大小的關係。

了解這些符號後,【圖四】和【圖五】即分別從兩個角度,來說明這種模式的應用。【圖四】表示的是一個文字「訛」、它的兩個字形、一些部件和字根,和基本筆劃之間的組成關係;以及字形變化所加的標識(tags)。

【圖五】是一個字根「禸」的字形孳乳樹。在圈內的是字形,沒圈的是字根或部件。圖中字形變化的標識,以虛線分別表示。

在計算機裡,【圖四】和【圖五】都是從一個結構表推導出來的。【圖四】是由字形推導到筆劃,而【圖五】則相反,由字根推導到所有相關的文字。

圖四:訛字相關的字形組成

圖五:字形孳乳樹之例


註二】 請參照:謝清俊等<中文字根之分析>,交大學刊第六卷第一期 pp.112-121,1972。此外,劉達人等編著《漢字綜合索引字典》,(Asian Associates出版,美國國會圖書館卡號:790525, 1979)也採用此模式。又,此模式曾改寫為 AF11文件<On the formalization of glyph in Chinese Language>1990,2月。


Page 2 of 3

論文目錄

下一頁

文獻處理實驗室