文獻處理實驗室 論文目錄

漢字字碼與資料庫國際研討會,京都•東京 1996年10月4日
從缺字問題,談漢字交換碼的重新設計──第一部分

漢字的字形與編碼

Page 5 of 6

伍、字形和字樣變化的表達與區分

依此字模式,字形的變化雖多,卻可歸納為筆劃的變化A、字根或部件的變化B和整個字的變化C等三個等級。其大要如下:【註八

A、筆劃的變化函數

A1:一筆劃位置改變,筆劃數和構字的字根不變。

A2:一筆劃尾部加勾,筆劃數和構字的字根不變。

A3:一筆劃被另一種筆劃替代,筆劃數與字根不變。

A4:增多一筆,筆劃數增1。

A5:減少一筆,筆劃數減1。

A6:一筆劃由另二筆劃取代,筆劃數加1。

A7:二筆劃由另一筆劃取代,筆劃數減1。

A8:一群筆劃由另一群筆劃取代。

B、字根或部件的變化函數

B1:一字根R1由另一字根R2取代,而R1和R2的差異只是筆劃上的變化(如前述A1至A8之變化)

B2:一字根R1由另一字根R2取代,而R1和R2之差異不屬筆劃上的變化。

B3:一部件(一群字根)由另一部件取代。

B4:增多一字根

B5:減少一字根

C、整個文字構字的改變函數

C1:字根不變而組合改變者。

C2:由簡化而改變者。

C3:不規則變形者。

如果我們觀察一下各國的漢字交換碼,或比較一下各種設計的字體、字型將會發現很多字形的差異是屬於A1至A8及B1類的微細差異(micro-difference)【註九】 一如《玉篇》中〈分毫字樣〉所列者。不同的是,〈分毫字樣〉所列的是不同的字,而A1至A8及B1所造成的差異是同一個字,而這些差異,都是由於字體、字型設計的差別造成的。這些細微差異的「形」,若每個都造一個形、給一個碼,那會多得無法應付。所以,在本系統中它們都歸屬同一字形,只用A1至A8及B1來標示差異,稱之為一個字形的「分毫字樣」(micro-difference variant)。至於B2、B3、B4及C1、C2、C3這些函數的變化,將產生不同的字形,即異體字。最近,Unicode及ISO10646在統一字形上均做了許多努力,他們把中日韓台等地的交換碼中的字形「相似」者于以合併,【註十】 所使用的原則頗與上述者相容。是故在字形的統一上,各國應是已有相當一致的看法。可是在漢字一字數形旳關係上,以乎仍未見標準組織有積極的作為【註十一】 。本文花費甚多篇幅說明了字與字形的關係以及漢字字形的變化,應可知字與字形的對映是改進交換碼必須面對的問題。

如果一個字有許多字形,字集可選擇其一作為該字的代表,餘均稱為異體字。例如:大陸選用簡體字放在國家標準中,而台灣選用較傳統的字形 放在交換碼中,日本、韓國亦可各有主張。這些使用上的彈性,都是本系統允許的,並無差別待遇。字和異體字之間的關係可在電腦中用關聯資料庫的欄位表達。


註八】 詳見謝清俊《On the Formalization of Glyph in Chinese Language》世界字體會(AFII)會議,東京,1990年2月

註九】 micro-difference一詞為Edwin Smura先生所首用。

註十】 請參照ISO 10646-1,Annex S,〈Procedure for the Unification and arrangement of CJK Ideographs〉。另在Kenneth W. Whistler〈Unicode Approaches to the Extension of Han Character〉,Chinese Unicode Workshop,U.C. Berkely,1996年9月7日

註十一】 在ISO/IEC/TR 15285的Annex E〈Examples of character to glyph mapping〉
(1996年8月),中略述及此問題,然而對漢字而言是不夠的。


Page 5 of 6
上一頁

論文目錄

下一頁

文獻處理實驗室