文獻處理實驗室 論文目錄

珍藏文獻整理與資訊科技應用研討會 1997年4月21

談古籍檢索的字形問題

Page 2 of 6

二、字形問題概說

自古以來漢字就不是一字一形的。雖然在歷史上每次整理文字時都希望做到一字一形但是實際上並沒有做到。歷代的字書都蒐集各體字形就是一項最好的證明。再者從生活環境上說任何時間的人民是不可能不接觸到古字形的這是因為社會現象本就是歷史的沈積生活本離不了歷史。所以從使用者的需求來看中文電腦應有能力處理古今字形才是。縱然今天做不到以後終將做得到。

然而時下的電腦中卻是只存一套標準碼;碼中定有標準的字形。這個字形是經過整理和規範後的字形並未涵蓋所有古今字形。以此字形處理珍藏古籍有無問題是可想而知的。我們並不反對政府對當前的文字約以規範替未來著想,定標準字形是有意義、有長遠的好處的。可是,標準字形只能顧到目前和未來,顧不了以往。這對處理珍藏古籍不只沒有幫助,反倒成為跘腳石。所以,對使用者(一般民眾)而言,電腦中不只應有規範的字形,還要有古時字形,這樣才能普惠眾生,解決日常生活中遇到的種種古今字形的問題。

從文字學史來看,漢字一字多形的情形比比皆是。成書在公元770年左右的《干祿字書》,顏元孫在自序中便將字形分為「通」、「俗」、「正」三者

『所謂俗者,例皆淺近,惟籍帳、文案、券契、藥方,非涉雅言,用亦無爽……所謂通者,相承久遠,可以施表、奏、箋、尺牘、判狀,固免詆訶。所謂正者有馮據,可以施著述、文章、對策、碑碣,將為允當。』

這段話說明了字形的『約定俗成』生態。這是文字生命的源頭活水。如果禁絕了這約定俗成的生命,那麼文字或字形就固定死了,以後再無改進、適應的餘地,久而久之終將走上絕路。所以,字形有變化是常態,是正常的;僵化的強制推行標準,反是病態;電腦中不能處理一字多形,也是病態。

其實,漢字不只有一字多形的性質,還有幾個字共用一個字形的情形,文字學中稱為同形字。六書中的『假借』字,就是這種情形最佳的例子。依文字學,字是以字的音義來判別的,換句話說,音義相同者,雖字形不同,應判為同一個字。據此界說,不只可以判別同形字,也可判別異體字(即一字多形者)。可惜的是,現在的交換碼中字和字形不分,混淆為用,使得交換碼沒有判別異體字的能力。這也是推動數位珍藏古籍時,先要解決的問題。至於同形字,交換碼雖目前亦無能力處理,但電腦在還沒有能力處理字義之前,倒顯得並不是那麼急迫的要解決,暫緩無妨。


Page 2 of 6
上一頁

論文目錄

下一頁

文獻處理實驗室