文獻處理實驗室 論文目錄

漢字字碼與資料庫國際研討會,京都•東京 1996年10月4日
從缺字問題,談漢字交換碼的重新設計──第一部分

漢字的字形與編碼

Page 1 of 6

謝清俊

壹、前言

現在用計算機處理漢字資料有許多問題待解決,其中最根本的問題是「字」不夠用,這就是所謂的缺字問題(missing character problem)。Wittern和App曾說﹕“In East Asia, the problem of missing character is ubiquitous, from individuals unable to type their own name to universities, companies, government agencies. In Japan, these missing characters are called gaiji ”…… It is clear from our work on electronic Chinese Buddhist texts that even Unicode ( ISO 10646 ) will not significantly reduce this problem ”【註一】 。這段評語是很適當中肯的。我們從1984年起在中央研究院發展漢籍全文資料庫至今,對這段評語有非常類似的體會。【註二

由於缺字衍生了許多管理上和技術上的嚴重問題,諸如【註三】 ﹕

    1. 大幅增加了資料登錄的工作
    2. 產生缺字管理和造字管理的困難
    3. 字碼所允許的使用者造字空間不夠用
    4. 缺字和異體字造成文件處理上的問題
    5. 造成資訊共享的障礙

這些問題如今已達到非解決不可的地步。

造成缺字問題的主要原因,固然是現有的交換碼性能不夠,從另一個角度來看,計算機中漢字知識的貧乏則更是直接的因素。以往,大家認為擴大交換碼的字集可能是解決問題的一個方法,可是根據Wittern和App的意見和我們自己的經驗,這樣只能降低一些問題發生的機率,並不能徹底解決缺字問題。因此,要解決問題,還是應該從建立計算機內處理漢字知識的能力著手﹔這包括將必要的文字學知識表達在計算機中加以利用,以及建構一個處理字形的機制。這就是本文的基本設想。

為了要將文字學必要的知識表達在計算機中,對漢字的一些基本性質,尤其是在基本定義和字形相關的知識方面,必須了解到相當程度。再者,這些表達在計算機中的知識必須與文字學和漢語語言學的知識能夠相容,否則所設計的系統將會失去擴充能力和必要的修飾彈性,也將會造成以後應用程式開發的困擾。上述的要求都是撰寫本文遵從的原則。

在這樣的工作條件下,由於資料甚多,本文分為兩個部分撰寫。在第一部份《漢字的字形與編碼》中,首先試圖將文字學中與編碼相關的知識整理出來作為解決問題的依據, 對字形變化的分析也在文中一併介紹。第二部份《漢字交換碼的再造》,將提出一個能徹底解決缺字問題的方法,以及依據此方法所設計的交換碼再造(re-engineering)方案。相關的主要工程實務是一個「字形資料庫」的建立。此資料庫目前進行的狀況以及例子也將在文中報告。最後,以此計劃執行的檢討作為第二部分的結束。


註一】Christian Wittern and Urs App.〈IRIZ Kanji Base : A New Strategy for Dealing with Missing Chinese Characters 〉世界電子佛典會議(EBTI)台北, 1996年4月

註二】 謝清俊,《中央研究院古籍全文資料庫發展概況》, AAAS Annual Conference, Hawaii, 1996年4月

註三】 謝清俊,《電子古籍中的缺字問題》第一屆中國文字學會學術討論會, 天津, 1996年8月


Page 1 of 6
上一頁

論文目錄

下一頁

文獻處理實驗室