貳、解決缺字問題的原則
造成缺字問題的主要原因,固然是現有的漢字交換碼性能不夠,從另一個角角度來看,電腦中缺乏漢字字形有關的信息,使得電腦無法順利依照我們所需要的方式處理文字,則是更直接的因素。目前的交換碼只收集字形,這點信息的功能是不夠的,至少還需要各字形間的對映信息,以做正俗、繁簡.古今等異體之間的認別、替代、比對、檢索等工作。要使電腦能較順暢地處理文章,文字學的信息是必要表達在電腦中的。雖然,這些些息太多了,已非交換碼的結構可以容納,然而,現在電腦缺乏一個機制,配合交換碼將這些信息納入,也是不爭的事實。
以往,大家認為:擴大交換碼收集的字形可能是解決缺字問題的方案之一。然而經多年各方的努力,包括中文資訊交換碼(CCCII)、GB字集的擴充及大字庫的建立、JIS的擴充、CNS的擴充、以及ISO10646的擴充等等,得知:這些擴充是有一點紓解的作用,但是所表現的效果並不怎麼好,並不能完全解決問題。這是有些原因的:首先,字形變化太多,難以收集完整;其次,電腦缺乏文字學知識,理由已如前述。再者,字集加大、字碼變長了以後,此使電腦負擔加重、成本增高,而且現有的應用程式要全隨著變更。這幾乎是不可能的事。
我們認為,要解決缺字問題,除了要建立電腦處理文字問題的能力以外,還要確立以下的設計原則:
- 不可以為了解決缺字問題而犧牲了資訊共享的能力。
- 要能照顧到任何地區使用的漢字。
建立登錄、檢索、表達及共享「缺字」的能力,以便儘早利用電腦協助管理缺字。
建立電腦中關於字、字形、字體的制式表達,將必要的相關知識放入電腦,包括異體字之間對映在內。
建立漢字的屬性資料庫。
以ISO
8879通用標準標誌語言(SGML,Standard General Markup
Language ) 來描述文件檔案及缺字,以達到文件共享的目的。
所建立之系統應考慮到以後往「文字學資料庫」擴充的可行性。
研擬「字碼替代」的技術。無論以後交換碼擴充到多麼長,希望能利用字碼自動替代技術做到維持目前16位元的漢字處理應用環境。
|