第一屆中國文字學會學術討論會‧天津 1996年8月25-30日 電子古籍中的缺字問題 |
Page 2 of 8 |
壹、前言 漢字歷史淵遠流長,自隸書以後就有二千三百餘年,誠如北魏江式云:『世易風移文字改變』在所難免。《顏氐家訓.雜藝》云:『晉宋以來……不無俗字,非為大損。……大同之未,訛替滋生。蕭子雲改易字體,邵陵王頗行偽字……朝野翕然,以為楷式。畫虎不成,多所傷敗。……爾後墳籍,略不可看。北朝喪亂之際,書蹟鄙陋,加以專輒造字,猥拙甚於江南。乃以百念為憂,言反為變,不用為罷,追來為歸,更生為蘇,先人為老:如此非一遍滿經傳……』。可見自古以來漢字的「形」並未能定於一。雖經唐以後,官方刻石整頓約以範式,然而天下碌碌多士實難以盡入繩矩。是故爾後字書依然收錄各體字形,如《干祿字書》將字形分為通、俗、正三體。亦有收錄異體字為主者,如《龍龕手鑑》。雖然古籍的字形多變化,帶來許多麻煩,但也非全無好處,特殊字形能提供版本、校勘方面有用的信息。所以,對治古籍不能不妥善處理字形問題,即使用電腦也如此。 一、缺字的問題 現在用電腦處理古籍很辛苦,首先面對的就是缺字的問題。Wittern和App說得好;『在亞洲,缺字問題無所不在(ubiguitous)。無論用什麼國家標準交換碼,都免不了有這個問題,即使ISO 10646也是一樣。……在可見的未來,這個問題似乎無解,只有套句老話「自求多福」了』【註一】。 為了應付缺字問題,一般治標的方法是:在交換碼的使用者造字區內,選一個碼位,並造上所缺的字形。這種做法固然可以在該電腦上顯示出該字形,但是付出的代價巨大,且沒能真正解決問題。茲將這種做法衍生的問題略述如次:
由以上諸點看來,缺字造成的後果嚴重,而目前處置缺字的辦法實非解決問題之道。 二、解決缺字問題的原則: 造成缺字問題的主要原因,固然是現有的漢字交換碼性能不夠,從另一個角角度來看,電腦中缺乏漢字字形有關的信息,使得電腦無法順利依照我們所需要的方式處理文字,則是更直接的因素。目前的交換碼只收集字形【註二】,這點信息僅止於能做字形的顯示,對處理古籍來說,它的功能是不夠的,至少還需要各字形間的對映信息,如正俗、繁簡.古今等異體之間的對映,才能用電腦做好字形間的認別、替代、比對、檢索……等工作。此外,字的屬性,如筆劃、部首、聲韻……等也有需要用到的地方,收納在電腦中應是遲早的事。就理上說,要使電腦能較順暢地處理古籍,非把文字學的信息設法表達在電腦中作為基礎不可,至少應該把一些好的字書或辭典中的信息放入電腦才是。雖然,這些些息太多了,已非交換碼的結構可以容納,然而,現在的電腦缺乏一個機制配合著交換碼將這些信息納入電腦中,也是不爭的事實。 缺字問題雖然無處不在,人人受苦,可是要解決它卻不容易。以往,大家認為:擴大交換碼收集的字形可能是解決的方案之一。經多年各方的努力,包括中文資訊交換碼(CCCII)、GB字集的擴充及大字庫的建立、JIS的擴充、CNS的擴充、以及ISO10646的擴充等等,根據我們處理古籍的經驗,這些擴充是有些紓解的作用,然而並不能完全解決問題,而所表現的效果並不怎麼好。這是有些原因的。首先,字形變化太多,難以收集完整。其次,是電腦中沒有字形的對映,缺乏文字學知識的表達,理由已如前述。再者,大字集使個人電腦負擔加重、成本增高;字碼變長了以後,現有的應用程式要全隨著更新,這幾乎是不可能的事。雖然擴大交換碼的字集是該努力的工作,然而,僅靠它並不能徹底解決缺字問題。我們認為,要解決缺字問題,還是應該建立電腦處理文字問題的能力,這包括將必要的文字學知識表達在電腦中並加以利用,以及建構一個處理字形的機制。這就是本文的基本設想。 為避免重蹈目前解決缺字方法造成的窘境,本系統確立了以下的設計原則。
以上這些原則,也就是本系統的設計重點。 【註一】 Christian Wittern and Urs App.〈IRIZ Kanji Base : A New Strategy for Dealing with Missing Chinese Characters 〉世界電子佛典會議(EBTI)台北,1996年4月 |
Page 2 of 8 |