文獻處理實驗室 專案計畫

行政院科技顧問組 委辦研究計劃 1998年2月

第十一章    漢字的構字規律和解決缺字問題的方法

Page 2 of 10

貳、解決缺字問題的原則

造成缺字問題的主要原因固然是現有的漢字交換碼性能不夠從另一個角角度來看電腦中缺乏漢字字形有關的信息使得電腦無法順利依照我們所需要的方式處理文字則是更直接的因素。目前的交換碼只收集字形這點信息的功能是不夠的至少還需要各字形間的對映信息以做正俗、繁簡.古今等異體之間的認別、替代、比對、檢索等工作。要使電腦能較順暢地處理文章文字學的信息是必要表達在電腦中的。雖然這些些息太多了已非交換碼的結構可以容納然而現在電腦缺乏一個機制,配合交換碼將這些信息納入也是不爭的事實。

以往大家認為:擴大交換碼收集的字形可能是解決缺字問題的方案之一。然而經多年各方的努力包括中文資訊交換碼(CCCII)GB字集的擴充及大字庫的建立、JIS的擴充、CNS的擴充、以及ISO10646的擴充等等得知:這些擴充是有一點紓解的作用但是所表現的效果並不怎麼好,並不能完全解決問題。這是有些原因的:首先字形變化太多難以收集完整;其次電腦缺乏文字學知識理由已如前述。再者字集加大、字碼變長了以後,此使電腦負擔加重、成本增高而且現有的應用程式要全隨著變更。這幾乎是不可能的事。

我們認為要解決缺字問題除了要建立電腦處理文字問題的能力以外還要確立以下的設計原則:

  1. 不可以為了解決缺字問題而犧牲了資訊共享的能力。
  2. 要能照顧到任何地區使用的漢字。
  3. 建立登錄、檢索、表達及共享「缺字」的能力以便儘早利用電腦協助管理缺字。
  4. 建立電腦中關於字、字形、字體的制式表達將必要的相關知識放入電腦包括異體字之間對映在內。
  5. 建立漢字的屬性資料庫。
  6. ISO 8879通用標準標誌語言(SGML,Standard General Markup Language ) 來描述文件檔案及缺字以達到文件共享的目的。
  7. 所建立之系統應考慮到以後往「文字學資料庫」擴充的可行性。
  8. 研擬「字碼替代」的技術。無論以後交換碼擴充到多麼長希望能利用字碼自動替代技術做到維持目前16位元的漢字處理應用環境。

Page 2 of 10
上一頁

回目錄

下一頁

文獻處理實驗室