文獻處理實驗室 專案計畫

行政院科技顧問組 委辦研究計劃 1998年2月

第十一章    漢字的構字規律和解決缺字問題的方法

Page 7 of 10

柒、字形變化的標示

SGML來標示缺字的方法是由WitternApp首先提出的稱為「漢字位標」(Kanji Placeholder,簡稱位標)。漢字位標規定以「&」起頭以「;」結束而夾在其中的字串分為兩個部份分別表示該字形在某一碼的某一位置。利用此位標就可以跨不同的碼來互補缺字。WitternAPP建構了一漢字庫(KanjiBase包括JIS,BIG5(即五大碼),UnicodeCNS等。其中CNS有四萬八千字字數最多,Unicode次之。若平時作業中遇有缺字則首先在CNS中查尋如果有該字字形則用位標將CNS之碼標明在文件中;若無Unicode。例如:「&U4AB5」表示一缺字;其中U表示Unicode字集,4AB5表示該缺字字形的Unicode碼位。這個方法可以減少缺字是有用的;而且它採用了國際的標準作為換碼的控制有助於大家採用流通。然而依前言中的討論這個方法並沒有完全解決缺字所帶來的諸多困擾。再者由於「&」被用為控制碼雙語文章中若要用「&」時怎麼辦呢?

善用SGML是解決缺字問題有力的方法,漢字位標是以SGML的標示(tag)為載具用其他字碼中的字形來表達缺字。仿此我們可用構字信息即構字式、字根序或部件序來表達缺字稱為漢字形標(Kanji Glyphholder簡稱形標。以部件序為例說明如下。

假設表示標示的起點(open delimiter表示結束(close delimiter阿門佛可用:阿門人人人佛的字根序表示;如果字集中有「 」字也可用阿門 佛的部件序表示。這樣的表達方式可以免去查其他字碼的工作而部件式所含的信息足夠作為認別該字缺字之用。

同樣的方法也可用來標示異體字。所用的方法是在構字式(或字根序、部件序)之後用一「•」作區隔再接上該字的字形碼。所用的標示與上相同。如「芍藥•3」表示「芍葯」若葯是藥的第三個異體字。形標並不排除位標,WitternApp的漢字位標也可以放在和之間的。所以形標包含位標的功能比位標更方便是位標的延申。


Page 7 of 10
上一頁

回目錄

下一頁

文獻處理實驗室