文獻處理實驗室 論文目錄

第一屆中國文字學會學術討論會天津 1996年8月25-30日

電子古籍中的缺字問題

Page 6 of  8

參、系統設計與實務

二、字形實務

本節討論的是與字形相關的一些重要問題包括基本資料的整理、字形知識的表達、字形變化的標示以及兩岸字形上的一些實務問題。茲分四節陳述如下。

(一)以往資料的整理

《中文電腦基本用字》和《交大字根系統》都是廿五年前資料,現在已經無法取得其電子版所以只好重新整理。但這樣也好順便可做一番校勘。這廿五年來電腦的變化甚大致使許多設計上的考量也變了許多這些差異也可在校勘時斟酌修正。

我們重新將《中文電腦基本用字》的9129字形逐一分解檢查是否有分解得不很自然的地方。若有則不惜加字根或部件。這是因為今日的個人電腦記憶體已比當年大了一千倍以上的緣故。同時也校勘錯字。由於當年匆匆付印《中文電腦基本用字的研究》一書的字表中40字有誤。這些錯誤在編印《漢字綜合索引字典》時曾予以更正但未留下此四十字的勘誤表。這些也在此次整理中一並解決。【註九】。

整理後發現有三個字(六個字形)重複並無法肯定予以刪除。此外有一異體字誤植亦予以刪除。故實得8529共計9122字形。重新核對後的字根共457部件629分別如〔表七〕、〔表八〕。這兩表的字形在五大碼中所無者都造在五大碼中。校勘後的《中文電腦基本用字》之熵值為9.60。加權後平均每字的字根數為1.9,這些數據和往者差別不大。

表七 校勘後(交大字根)表

表八 校勘後(交大;部件)表

(二)字形的表達與呈現

讓我們先用例子來說明一些名詞和符號以及構字信息在電腦中的表達方式。〔圖六〕最右一枝中的一些字在電腦中的表達如下:

1. 灕=臕驉@2. 離=离 3. 璃=王

4. 擒=繨V 5. 噙=口 6. 离=^

7. 禽=]鵖獺@8. 隹=翩@9.Bwg

10.^=B韙縑@11. 凶=凵It

111這些式子稱為「構字式」其中韝嬪O表示橫連、直連、包含等定位符號。電腦可依構字式逐次追蹤以消去式中的字或部件而得到完全以字根表示該字構成的「字根構字式」。如(3)

灕=(离隹)
 =礡](^鮸芋^礡]翩^)
 =礡]((B韙縑^鮸芋^礡]礡]Bw)))
 =礡]((B鞢]凵I))鮸芋^礡]礡]Bw)))…… (3)

(3)式中的「灕」是八個字根構成的若省去定位符號,(3)式可寫為:

灕=BI凵禸Bw …… (4)

(4)式稱為灕的「字根序」。比照此法,111式也可將定位符號省略省略後的式子稱「部件序」或「字根序」。

構字式中擁有字形結構完整的資料部件序和字根序則否。雖然如此字根序的判別能力還是很強的在林樹字集中只有八對字沒法以字根序判別如(唄、員)。是故在判別字時用字根序不失為一良法它比構字式單純得多。可是在實用上它還是嫌太長。部件序雖然所含的字形信息最少但是它最簡潔:通常只有二個部件(偶有三個)而且省略的一個定位符號絕大部份可由前後部件的性質中判斷出來(用電腦)。所以用它來表示所缺的字是很方便的。

我們可以把一個字集中所有字形的構字式放在字形資料庫裡這樣便完整地將該字集的字形信息(或知識)放入了電腦。以《中文電腦基本用字》為例共有9756個構字式其中8529個屬字集的,593個屬異體字,629個屬部件的。若將該字集中對映的簡化字也放進去則有2284個屬異體字的構字式部件加多了35個共計6648529個屬字集的依舊不變總計11477個構字式。

(三)字形變化的標示

SGML來標示缺字的方法是由WitternApp首先提出的【註一稱為「漢字位標」(Kanji Placeholder,簡稱位標)。漢字位標規定以「&」起頭以「;」結束而夾在其中的字串分為兩個部份分別表示該字形在某一碼的某一位置。

利用此位標就可以跨不同的碼來互補缺字。WitternAPP建構了一漢字庫(KanjiBase包括JIS,BIG5(即五大碼),UnicodeCNS等。其中CNS有4萬八千字字數最多,Unicode次之。若平時作業中遇有缺字則首先在CNS中查尋如果有該字字形則用位標將CNS之碼標明在文件中;若無Unicode。例如:「&U4AB5」表示一缺字;其中U表示Unicode字集,4AB5表示該缺字字形的Unicode碼位。

這個方法可以減少缺字是有用的;而且它採用了國際的標準作為換碼的控制有助於大家採用流通。然而依前言中的討論這個方法並沒有完全解決缺字所帶來的諸多困擾。再者由於「&」被用為控制碼雙語文章中若要用「&」時怎麼辦呢?善用SGML是解決缺字問題有力的方法本系統將修正漢字位標的作法提出更有效的方案。 

漢字位標是以SGML的標示(tag)為載具用其他字碼中的字形來表達缺字。仿此我們可用構字信息即構字式、字根序或部件序來表達缺字稱為漢字形標(Kanji Glyphholder簡稱形標。以部件序為例說明如下。

同樣的方法也可用來標示異體字。所用的方法是在構字式(或字根序、部件序)之後用一「•」作區隔再接上該字的字形碼。所用的標示與上相同。如「芍藥•3」表示「芍葯」若葯是藥的第三個異體字。

形標並不排除位標,WitternApp的漢字位標也可以放在之間的。所以形標包含位標的功能比位標更方便是位標的延申。

(四)兩岸字形的共享

為了兩岸字形能夠互通共享我們嚐試將簡化字及大陸的字根與「部件」納入系統中。在簡化字方面是採用蘇培成根據1986年《簡化字總表》所編的《漢字繁簡對照字典》中收錄簡化字。目前已填入與《中文電腦基本用字》中能相互對應的2017餘下未收的242字正在造字樣尚未填入【註十】。至於字根方面則採用武漢大學《現代漢語定量分析》書中收錄傅永和先生〈漢字結構及其構成成分的統計及分析〉一文中所列的字根以及ISO/IEC JTC1/SC2/WG2/JRG N319號文件〈ISO 10646 Additional Components 〉的字根。這些字根並未一次放入系統中目的是要測試二者的相容程度。結果顯示兩岸的字根是十分相容;加了2235個字形後只增加了35個字根和36個部件其中多屬簡化的偏旁及部件。

此外在筆劃方面也有些差異如:「驉v與「f」「呂」與「穭f」等。這些差異用分毫字樣的函數盡可表達應該不會造成問題。只是《漢字繁簡對照字典》中找不到k字雖然在鋁、閭兩字中可以印證但總是不放心。也許是我們用的《漢字繁簡對照字典》不太好罷在資料收集上我們應更努力。

總之繁簡字形合併在字形資料庫中目前雖有些問題但大體上是可行的、成功的。前述的困難加大了字形結構上的複雜程度並不是不能實踐。


註一】 Christian Wittern and Urs App.〈IRIZ Kanji Base : A New Strategy for Dealing with Missing Chinese Characters 〉
世界電子佛典會議(EBTI)台北,1996年4月

註七謝清俊莊德明張翠玲許婉蓉,〈中文字形資料庫的設計與運用〉,中國文字學會年會,台中1995

註八】 依照《簡化字總表》(1986年版),共取簡化字2235個,及相對應的繁體字2259個。
蘇培成編著,《漢字簡繁體字對照字典》,台灣珠海出版有限公司,1994

註九】詳見許婉蓉,〈林樹字集的更正及問題字〉,中研院資訊所文獻處理實驗室,1996

註十許婉蓉,《林樹擴充字集中的簡化字》,文獻處理實驗室,中矸院資訊所,1996


Page 6 of  8
上一頁

下一頁

文獻處理實驗室