柒、字形變化的標示
用SGML來標示缺字的方法,是由Wittern及App首先提出的,稱為「漢字位標」(Kanji Placeholder,簡稱位標)。漢字位標規定以「&」起頭,以「;」結束,而夾在其中的字串分為兩個部份,分別表示該字形在某一碼的某一位置。利用此位標,就可以跨不同的碼來互補缺字。Wittern及APP建構了一漢字庫(KanjiBase),包括JIS,BIG5(即五大碼),Unicode及CNS等。其中CNS有四萬八千字,字數最多,Unicode次之。若平時作業中遇有缺字,則首先在CNS中查尋,如果有該字字形,則用位標將CNS之碼標明在文件中;若無,再Unicode。例如:「&U4AB5」表示一缺字;其中U表示Unicode字集,4AB5表示該缺字字形的Unicode碼位。這個方法可以減少缺字,是有用的;而且它採用了國際的標準作為換碼的控制,有助於大家採用流通。然而,依前言中的討論,這個方法並沒有完全解決缺字所帶來的諸多困擾。再者,由於「&」被用為控制碼,雙語文章中若要用「&」時怎麼辦呢?
善用SGML是解決缺字問題有力的方法,漢字位標是以SGML的標示(tag)為載具,用其他字碼中的字形來表達缺字。仿此,我們可用構字信息,即構字式、字根序或部件序來表達缺字,稱為漢字形標(Kanji Glyphholder),簡稱形標。以部件序為例,說明如下。
假設表示標示的起點(open delimiter),表示結束(close
delimiter),則阿門佛可用:阿門人人人佛的字根序表示;如果字集中有「
」字,也可用阿門 佛的部件序表示。這樣的表達方式,可以免去查其他字碼的工作,而部件式所含的信息足夠作為認別該字缺字之用。
同樣的方法也可用來標示異體字。所用的方法是在構字式(或字根序、部件序)之後用一「•」作區隔,再接上該字的字形碼。所用的標示與上相同。如,「芍藥•3」表示「芍葯」,若葯是藥的第三個異體字。形標並不排除位標,Wittern和App的漢字位標也可以放在和之間的。所以,形標包含位標的功能,比位標更方便,是位標的延申。 |