謝清俊
壹、缺字的問題
電腦處理資料時,常有些漢字的字形是交換碼中沒有的,此即缺字的問題。這情形在古籍中特別嚴重,Wittern和App說得好;「在亞洲,缺字問題無所不在(ubiquitous)。無論用什麼國家標準交換碼,都免不了有這個問題,即使ISO
10646也是一樣。……在可見的未來,這個問題似乎無解,只有套句老話「自求多福」了。」為解決此問題,一般治標的方法是:在交換碼的使用者造字區內,選一個碼位,並造上所缺的字形。這種做法固然可以在該電腦上顯示出該字形,但是付出的代價巨大,且沒能真正解決問題。茲將這種做法衍生的問題略述如次:
一、大幅增加了資料登錄的工作
當鍵入資料時,若逢缺字,目前的處理方式是以一個特殊符號,如:『●』,來表示所缺之字。這種做法,可暫時使鍵入工作不致中斷,得以持續進行;然而,必須增加第二道工作,來填改所有的缺字。這填改工作,卻必須等到稽查原文,把所缺之字造好後,重新校對原文,再一一改正打字稿。此補字工作之繁重,可想而知。
二、造字的管理不易
如果所缺的字不多,登錄工作煩複些也還罷了,可是,若古籍之量龐大,所缺之字動輒上千,再加上所造的字無法依交換碼的字序排列,那麼,這些新造的字是極不易查核比對的。因此在資料登錄時,查核及改正缺字是既費力又費時,一不小心便出錯,也常有重複造字的現象。再者,在工作中缺字表隨時在更新,要所有的相關人員都能及時同步更新此表,在管理與溝通上頗不容易,因更新的時差而造成重複的工作,也是常有的事。管理成千上萬的缺字,要付出許多代價。目前,電腦中還沒有一個理想的管理系統,來協助造字的管理,多靠鍵入人員以人工維護這數千字造字表,不僅浪費人力,也曠日費時,效率不彰。
三、造字的空間不足
通常,交換碼中允許造字的空間都在數十字至數百字之間,不會太大。以五大碼而言,造字空間是最大的了,也只有5809字。超越此數後,勢必造成碼位的重疊或衝突。
四、異體字將造成文件檢索和處理上的困擾
缺字中有許多是異體字,這些異體字彼此對映的關係,並沒有告訴電腦。因此,電腦查「台灣」就找不出「臺灣」,並會判斷「拾元」不等於「十元」。這些現象嚴重影響到資訊處理的功能。此外,造字區沒有交換碼用的字序,引起排序的種種麻煩更不在話下。再者,現有的應用程式多半沒有考慮到加了造字區的問題,這現象又會造成程式共享上的障礙。
五、造成資訊共享的障礙
使用者造字所訂的單行碼,破壞了交換碼的通用性,而使電子文件無法與大家共享。即使把造字碼表提供給對方,也會因你造的字和我造的字用了同一位碼,而使彼此的文件無法共存。事實上,缺字問題已是目前中文信息共享的最主要技術障礙。
由以上看來,缺字造成的後果嚴重,而目前處置缺字的辦法實非解決問題之道。 |