壹、缺字的問題

謝清俊

壹、缺字的問題

電腦處理資料時，常有些漢字的字形是交換碼中沒有的，此即缺字的問題。這情形在古籍中特別嚴重，Wittern和App說得好；「在亞洲，缺字問題無所不在(ubiquitous)。無論用什麼國家標準交換碼，都免不了有這個問題，即使ISO 10646也是一樣。……在可見的未來，這個問題似乎無解，只有套句老話「自求多福」了。」為解決此問題，一般治標的方法是：在交換碼的使用者造字區內，選一個碼位，並造上所缺的字形。這種做法固然可以在該電腦上顯示出該字形，但是付出的代價巨大，且沒能真正解決問題。茲將這種做法衍生的問題略述如次：

一、大幅增加了資料登錄的工作

當鍵入資料時，若逢缺字，目前的處理方式是以一個特殊符號，如：『●』，來表示所缺之字。這種做法，可暫時使鍵入工作不致中斷，得以持續進行；然而，必須增加第二道工作，來填改所有的缺字。這填改工作，卻必須等到稽查原文，把所缺之字造好後，重新校對原文，再一一改正打字稿。此補字工作之繁重，可想而知。

二、造字的管理不易

如果所缺的字不多，登錄工作煩複些也還罷了，可是，若古籍之量龐大，所缺之字動輒上千，再加上所造的字無法依交換碼的字序排列，那麼，這些新造的字是極不易查核比對的。因此在資料登錄時，查核及改正缺字是既費力又費時，一不小心便出錯，也常有重複造字的現象。再者，在工作中缺字表隨時在更新，要所有的相關人員都能及時同步更新此表，在管理與溝通上頗不容易，因更新的時差而造成重複的工作，也是常有的事。管理成千上萬的缺字，要付出許多代價。目前，電腦中還沒有一個理想的管理系統，來協助造字的管理，多靠鍵入人員以人工維護這數千字造字表，不僅浪費人力，也曠日費時，效率不彰。

三、造字的空間不足

通常，交換碼中允許造字的空間都在數十字至數百字之間，不會太大。以五大碼而言，造字空間是最大的了，也只有5809字。超越此數後，勢必造成碼位的重疊或衝突。

四、異體字將造成文件檢索和處理上的困擾

缺字中有許多是異體字，這些異體字彼此對映的關係，並沒有告訴電腦。因此，電腦查「台灣」就找不出「臺灣」，並會判斷「拾元」不等於「十元」。這些現象嚴重影響到資訊處理的功能。此外，造字區沒有交換碼用的字序，引起排序的種種麻煩更不在話下。再者，現有的應用程式多半沒有考慮到加了造字區的問題，這現象又會造成程式共享上的障礙。

五、造成資訊共享的障礙

使用者造字所訂的單行碼，破壞了交換碼的通用性，而使電子文件無法與大家共享。即使把造字碼表提供給對方，也會因你造的字和我造的字用了同一位碼，而使彼此的文件無法共存。事實上，缺字問題已是目前中文信息共享的最主要技術障礙。

由以上看來，缺字造成的後果嚴重，而目前處置缺字的辦法實非解決問題之道。