文獻處理實驗室 專案計畫

行政院科技顧問組 委辦研究計劃 1998年2月

第十一章    漢字的構字規律和解決缺字問題的方法

Page 1 of 10

謝清俊

壹、缺字的問題

電腦處理資料時常有些漢字的字形是交換碼中沒有的此即缺字的問題。這情形在古籍中特別嚴重,WitternApp說得好;「在亞洲缺字問題無所不在(ubiquitous)。無論用什麼國家標準交換碼都免不了有這個問題即使ISO 10646也是一樣。……在可見的未來這個問題似乎無解只有套句老話「自求多福」了。」為解決此問題一般治標的方法是:在交換碼的使用者造字區內選一個碼位並造上所缺的字形。這種做法固然可以在該電腦上顯示出該字形但是付出的代價巨大且沒能真正解決問題。茲將這種做法衍生的問題略述如次:

一、大幅增加了資料登錄的工作

當鍵入資料時若逢缺字目前的處理方式是以一個特殊符號如:『●』來表示所缺之字。這種做法可暫時使鍵入工作不致中斷得以持續進行;然而必須增加第二道工作來填改所有的缺字。這填改工作卻必須等到稽查原文把所缺之字造好後重新校對原文再一一改正打字稿。此補字工作之繁重可想而知。

二、造字的管理不易

如果所缺的字不多登錄工作煩複些也還罷了可是若古籍之量龐大所缺之字動輒上千再加上所造的字無法依交換碼的字序排列那麼這些新造的字是極不易查核比對的。因此在資料登錄時查核及改正缺字是既費力又費時一不小心便出錯也常有重複造字的現象。再者在工作中缺字表隨時在更新要所有的相關人員都能及時同步更新此表在管理與溝通上頗不容易因更新的時差而造成重複的工作也是常有的事。管理成千上萬的缺字要付出許多代價。目前電腦中還沒有一個理想的管理系統來協助造字的管理多靠鍵入人員以人工維護這數千字造字表不僅浪費人力也曠日費時效率不彰。

三、造字的空間不足

通常交換碼中允許造字的空間都在數十字至數百字之間不會太大。以五大碼而言造字空間是最大的了也只有5809字。超越此數後勢必造成碼位的重疊或衝突。

四、異體字將造成文件檢索和處理上的困擾

缺字中有許多是異體字這些異體字彼此對映的關係並沒有告訴電腦。因此電腦查「台灣」就找不出「臺灣」並會判斷「拾元」不等於「十元」。這些現象嚴重影響到資訊處理的功能。此外造字區沒有交換碼用的字序引起排序的種種麻煩更不在話下。再者現有的應用程式多半沒有考慮到加了造字區的問題這現象又會造成程式共享上的障礙。

五、造成資訊共享的障礙

使用者造字所訂的單行碼破壞了交換碼的通用性而使電子文件無法與大家共享。即使把造字碼表提供給對方也會因你造的字和我造的字用了同一位碼而使彼此的文件無法共存。事實上缺字問題已是目前中文信息共享的最主要技術障礙。

由以上看來缺字造成的後果嚴重而目前處置缺字的辦法實非解決問題之道。


Page 1 of 10
上一頁

回目錄

下一頁

文獻處理實驗室