行政院科技顧問組 委辦研究計劃 1998年2月 第十一章 漢字的構字規律和解決缺字問題的方法 |
Page 2 of 10 |
貳、解決缺字問題的原則 造成缺字問題的主要原因,固然是現有的漢字交換碼性能不夠,從另一個角角度來看,電腦中缺乏漢字字形有關的信息,使得電腦無法順利依照我們所需要的方式處理文字,則是更直接的因素。目前的交換碼只收集字形,這點信息的功能是不夠的,至少還需要各字形間的對映信息,以做正俗、繁簡.古今等異體之間的認別、替代、比對、檢索等工作。要使電腦能較順暢地處理文章,文字學的信息是必要表達在電腦中的。雖然,這些些息太多了,已非交換碼的結構可以容納,然而,現在電腦缺乏一個機制,配合交換碼將這些信息納入,也是不爭的事實。 以往,大家認為:擴大交換碼收集的字形可能是解決缺字問題的方案之一。然而經多年各方的努力,包括中文資訊交換碼(CCCII)、GB字集的擴充及大字庫的建立、JIS的擴充、CNS的擴充、以及ISO10646的擴充等等,得知:這些擴充是有一點紓解的作用,但是所表現的效果並不怎麼好,並不能完全解決問題。這是有些原因的:首先,字形變化太多,難以收集完整;其次,電腦缺乏文字學知識,理由已如前述。再者,字集加大、字碼變長了以後,此使電腦負擔加重、成本增高,而且現有的應用程式要全隨著變更。這幾乎是不可能的事。 我們認為,要解決缺字問題,除了要建立電腦處理文字問題的能力以外,還要確立以下的設計原則:
|