漢字字碼與資料庫國際研討會,京都•東京 1996年10月4日 從缺字問題,談漢字交換碼的重新設計──第一部分 漢字的字形與編碼 |
Page 5 of 6 |
伍、字形和字樣變化的表達與區分 依此字模式,字形的變化雖多,卻可歸納為筆劃的變化A、字根或部件的變化B和整個字的變化C等三個等級。其大要如下:【註八】 A、筆劃的變化函數
B、字根或部件的變化函數
C、整個文字構字的改變函數
如果我們觀察一下各國的漢字交換碼,或比較一下各種設計的字體、字型將會發現很多字形的差異是屬於A1至A8及B1類的微細差異(micro-difference)【註九】 一如《玉篇》中〈分毫字樣〉所列者。不同的是,〈分毫字樣〉所列的是不同的字,而A1至A8及B1所造成的差異是同一個字,而這些差異,都是由於字體、字型設計的差別造成的。這些細微差異的「形」,若每個都造一個形、給一個碼,那會多得無法應付。所以,在本系統中它們都歸屬同一字形,只用A1至A8及B1來標示差異,稱之為一個字形的「分毫字樣」(micro-difference variant)。至於B2、B3、B4及C1、C2、C3這些函數的變化,將產生不同的字形,即異體字。最近,Unicode及ISO10646在統一字形上均做了許多努力,他們把中日韓台等地的交換碼中的字形「相似」者于以合併,【註十】 所使用的原則頗與上述者相容。是故在字形的統一上,各國應是已有相當一致的看法。可是在漢字一字數形旳關係上,以乎仍未見標準組織有積極的作為【註十一】 。本文花費甚多篇幅說明了字與字形的關係以及漢字字形的變化,應可知字與字形的對映是改進交換碼必須面對的問題。 如果一個字有許多字形,字集可選擇其一作為該字的代表,餘均稱為異體字。例如:大陸選用簡體字放在國家標準中,而台灣選用較傳統的字形 放在交換碼中,日本、韓國亦可各有主張。這些使用上的彈性,都是本系統允許的,並無差別待遇。字和異體字之間的關係可在電腦中用關聯資料庫的欄位表達。 【註八】 詳見謝清俊《On the Formalization of Glyph in Chinese Language》世界字體會(AFII)會議,東京,1990年2月 【註九】 micro-difference一詞為Edwin Smura先生所首用。 【註十】 請參照ISO 10646-1,Annex S,〈Procedure for the Unification and arrangement of CJK Ideographs〉。另在Kenneth W. Whistler〈Unicode Approaches to the Extension of Han Character〉,Chinese Unicode Workshop,U.C. Berkely,1996年9月7日 【註十一】 在ISO/IEC/TR
15285的Annex E〈Examples of character to glyph mapping〉 |