貳、解決缺字問題的原則

貳、解決缺字問題的原則

造成缺字問題的主要原因，固然是現有的漢字交換碼性能不夠，從另一個角角度來看，電腦中缺乏漢字字形有關的信息，使得電腦無法順利依照我們所需要的方式處理文字，則是更直接的因素。目前的交換碼只收集字形，這點信息的功能是不夠的，至少還需要各字形間的對映信息，以做正俗、繁簡．古今等異體之間的認別、替代、比對、檢索等工作。要使電腦能較順暢地處理文章，文字學的信息是必要表達在電腦中的。雖然，這些些息太多了，已非交換碼的結構可以容納，然而，現在電腦缺乏一個機制，配合交換碼將這些信息納入，也是不爭的事實。

以往，大家認為：擴大交換碼收集的字形可能是解決缺字問題的方案之一。然而經多年各方的努力，包括中文資訊交換碼(CCCII)、GB字集的擴充及大字庫的建立、JIS的擴充、CNS的擴充、以及ISO10646的擴充等等，得知：這些擴充是有一點紓解的作用，但是所表現的效果並不怎麼好，並不能完全解決問題。這是有些原因的：首先，字形變化太多，難以收集完整；其次，電腦缺乏文字學知識，理由已如前述。再者，字集加大、字碼變長了以後，此使電腦負擔加重、成本增高，而且現有的應用程式要全隨著變更。這幾乎是不可能的事。

我們認為，要解決缺字問題，除了要建立電腦處理文字問題的能力以外，還要確立以下的設計原則：

不可以為了解決缺字問題而犧牲了資訊共享的能力。

要能照顧到任何地區使用的漢字。

建立登錄、檢索、表達及共享「缺字」的能力，以便儘早利用電腦協助管理缺字。

建立電腦中關於字、字形、字體的制式表達，將必要的相關知識放入電腦，包括異體字之間對映在內。

建立漢字的屬性資料庫。

以ISO 8879通用標準標誌語言(SGML，Standard General Markup Language ) 來描述文件檔案及缺字，以達到文件共享的目的。

所建立之系統應考慮到以後往「文字學資料庫」擴充的可行性。

研擬「字碼替代」的技術。無論以後交換碼擴充到多麼長，希望能利用字碼自動替代技術做到維持目前16位元的漢字處理應用環境。