文獻處理實驗室 論文目錄

第一屆中國文字學會學術討論會天津 1996年8月25-30日

電子古籍中的缺字問題

Page 2 of  8

壹、前言

漢字歷史淵遠流長自隸書以後就有二千三百餘年誠如北魏江式云:『世易風移文字改變』在所難免。《顏氐家訓.雜藝》云:『晉宋以來……不無俗字,非為大損。……大同之未,訛替滋生。蕭子雲改易字體,邵陵王頗行偽字……朝野翕然,以為楷式。畫虎不成,多所傷敗。……爾後墳籍,略不可看。北朝喪亂之際,書蹟鄙陋,加以專輒造字,猥拙甚於江南。乃以百念為憂,言反為變,不用為罷,追來為歸,更生為蘇,先人為老:如此非一遍滿經傳……』。可見自古以來漢字的「形」並未能定於一。雖經以後官方刻石整頓約以範式然而天下碌碌多士實難以盡入繩矩。是故爾後字書依然收錄各體字形如《干祿字書》將字形分為通、俗、正三體。亦有收錄異體字為主者如《龍龕手鑑》。雖然古籍的字形多變化,帶來許多麻煩但也非全無好處特殊字形能提供版本、校勘方面有用的信息。所以對治古籍不能不妥善處理字形問題即使用電腦也如此。

一、缺字的問題

現在用電腦處理古籍很辛苦首先面對的就是缺字的問題。WitternApp說得好;『在亞洲缺字問題無所不在(ubiguitous)。無論用什麼國家標準交換碼都免不了有這個問題即使ISO 10646也是一樣。……在可見的未來這個問題似乎無解只有套句老話「自求多福」了』【註一】。

為了應付缺字問題一般治標的方法是:在交換碼的使用者造字區內選一個碼位並造上所缺的字形。這種做法固然可以在該電腦上顯示出該字形但是付出的代價巨大且沒能真正解決問題。茲將這種做法衍生的問題略述如次:

  1. 大幅增加了資料登錄的工作
    當鍵入資料時
    若逢缺字目前的處理方式是以一個特殊符號如:『●』來表示所缺之字。這種做法可暫時使鍵入工作不致中斷得以持續進行;然而必須增加第二道工作來填改所有的缺字。這填改工作卻必須等到稽查原文把所缺之字造好後重新校對原文再一一改正打字稿。此補字工作之繁重
    可想而知。

  2. 造字的管理不易
    如果所缺的字不多
    登錄工作煩複些也還罷了可是若古籍之量龐大所缺之字動輒上千再加上所造的字無法依交換碼的字序排列那麼這些新造的字是極不易查核比對的。因此在資料登錄時查核及改正缺字是既費力又費時一不小心便出錯也常有重複造字的現象。再者在工作中缺字表隨時在更新要所有的相關人員都能及時同步更新此表在管理與溝通上頗不容易因更新的時差而造成重複的工作也是常有的事。管理成千上萬的缺字要付出許多代價。目前電腦中還沒有一個理想的管理系統來協助造字的管理多靠鍵入人員以人工維護這數千字造字表不僅浪費人力也曠日費時
    效率不彰。

  3. 造字的空間不足
    通常
    交換碼中允許造字的空間都在數十字至數百字之間,不會太大。以五大碼而言造字空間是最大的了也只有5809字。超越此數後
    勢必造成碼位的重疊或衝突。

  4. 異體字將造成文件檢索和處理上的困擾
    缺字中有許多是與交換碼中字形不同的異體字
    但是這些異體字彼此對映的關係並沒有告訴電腦知道。因此電腦查「台灣」就找不出「臺灣」並會判斷「拾元」不等於「十元」。這些現象嚴重影響到資訊處理的品質。再者造字區字沒有交換碼用的字序在排序上引起應用程式的種種麻煩更不在話下。此外現有的應用程式多半沒有考慮到加了一個使用者造字區而引發的處理問題
    所以這現象又會造成程式共享上的障礙。

  5. 造成資訊共享的障礙
    電子文件的重要特質之一
    是可以幾乎不花什麼代價就可以抄錄分享。可是若有使用者造字所訂的單行碼就破壞了交換碼的通用性而使電子文件無法與大家共享了。即使把造字碼表提供給對方也會因你造的字和我造的字用了同一位碼而使彼此的文件無法共存。無法共存就失去共享的意義。事實上
    缺字問題已是目前中文信息共享的最主要技術障礙。

由以上諸點看來缺字造成的後果嚴重而目前處置缺字的辦法實非解決問題之道。

二、解決缺字問題的原則:

造成缺字問題的主要原因固然是現有的漢字交換碼性能不夠從另一個角角度來看電腦中缺乏漢字字形有關的信息使得電腦無法順利依照我們所需要的方式處理文字則是更直接的因素。目前的交換碼只收集字形【註二】這點信息僅止於能做字形的顯示對處理古籍來說它的功能是不夠的至少還需要各字形間的對映信息如正俗、繁簡.古今等異體之間的對映才能用電腦做好字形間的認別、替代、比對、檢索……等工作。此外字的屬性如筆劃、部首、聲韻……等也有需要用到的地方收納在電腦中應是遲早的事。就理上說要使電腦能較順暢地處理古籍非把文字學的信息設法表達在電腦中作為基礎不可至少應該把一些好的字書或辭典中的信息放入電腦才是。雖然這些些息太多了已非交換碼的結構可以容納然而現在的電腦缺乏一個機制配合著交換碼將這些信息納入電腦中也是不爭的事實。

缺字問題雖然無處不在人人受苦可是要解決它卻不容易。以往大家認為:擴大交換碼收集的字形可能是解決的方案之一。經多年各方的努力包括中文資訊交換碼(CCCII)GB字集的擴充及大字庫的建立、JIS的擴充、CNS的擴充、以及ISO10646的擴充等等根據我們處理古籍的經驗這些擴充是有些紓解的作用然而並不能完全解決問題而所表現的效果並不怎麼好。這是有些原因的。首先字形變化太多難以收集完整。其次是電腦中沒有字形的對映缺乏文字學知識的表達理由已如前述。再者大字集使個人電腦負擔加重、成本增高;字碼變長了以後現有的應用程式要全隨著更新這幾乎是不可能的事。雖然擴大交換碼的字集是該努力的工作,然而,僅靠它並不能徹底解決缺字問題。我們認為,要解決缺字問題,還是應該建立電腦處理文字問題的能力,這包括將必要的文字學知識表達在電腦中並加以利用,以及建構一個處理字形的機制。這就是本文的基本設想。

為避免重蹈目前解決缺字方法造成的窘境本系統確立了以下的設計原則。

  1. 不可以為了解決缺字問題而犧牲了資訊共享的能力。

  2. 要能照顧到任何地區使用的漢字。

  3. 建立登錄、檢索、表達及共享「缺字」的能力,以便儘早利用電腦協助管理缺字。

  4. 建立電腦中關於字、字形、字體的制式表達,將必要的相關知識放入電腦,包括異體字之間對映在內。

  5. 建立漢字的屬性資料庫。

  6. 以ISO 8879通用標準標誌語言(SGML,Standard General Markup Language ) 來描述文件檔案及缺字,以達到文件共享的目的。

  7. 所建立之系統應考慮到以後往「文字學資料庫」擴充的可行性。

  8. 研擬「字碼替代」的技術。無論以後交換碼擴充到多麼長,希望能利用字碼自動替代技術做到維持目前16位元的漢字處理應用環境。

以上這些原則也就是本系統的設計重點。


註一】 Christian Wittern and Urs App.〈IRIZ Kanji Base : A New Strategy for Dealing with Missing Chinese Characters 〉世界電子佛典會議(EBTI)台北,1996年4月


Page 2 of  8
上一頁

下一頁

文獻處理實驗室