伍、結語
本研究進行兩年餘,始終秉持第二頁所列的原則,試圖解決缺字問題。至目前,雖然後繼工作仍多,大體看來這是可行的路。要言之,我們以增加電腦中漢字字形知識為主要手段,用ISO的標誌標準,利用網路的溝通能力,多工作業系統的方便等,在不犧牲信息共享之下,建立了登錄、檢索、表達缺字的能力。這能力是不分國界地區的,所以有利於各地區漢字的整合,以達到相互參照的目標。
在技術方面,本文所提出的字形模式是封閉性的孳生系統,比條舉式的開放系統所設計的交換碼無論在性能上、效率上均高一籌。我們改進了《交大字根系統》,把部件集找出來,使得構字式可短到兩個部件,這也是一貢獻。此外,我們給電腦字、字形、字體、字型、字樣等清晰的定義和表達,這是一項創舉。我們並不執著這些定義及表達是完美無缺的,反而,我們希望大家多批評、建議,以使這些基本更精確、更切合大家的需要,因為這些基本定義和表達方式是日後大家共享資料,共享程序的基礎。
我們延伸了漢字位標的觀念,創造出漢字形標。在觀念上,我們以構字的知識作為字形的識別碼(identifier),和傳統的數字碼相輔相成、相得益彰。在系統方面,在《電子佛典補充字集》和改善目前資料登錄系統的構想和嚐試,都得到不少人士的支持。在這情形下,雖然整個工作尚未完成,我們覺得有需要發表出來,以廣納各界的批評來改進可能的缺點。
在未來工作方面,完成字根與基本筆劃間的構字關係是一要務,此中包括用SGML標示來表達分毫字樣的一些細節。再者,沒能將傳統文字學的信息納入,是本系統的弱點,也是以後要努力的地方。周何等1982年的《中文字根孳乳表稿》中,從文字學的角度,由《中文資訊交換碼》的二萬二千餘字中,歸納出聲母869,形母265個,並詳列字形與聲母,形母的樹狀孳乳關係,是值得參考的文件【註十二】 高鴻縉的《中國字例》【註十三】杜學知的《孳乳叢考初稿》等,就字源及語意角度推演漢字孳乳形成的家族,也是很值得參考的。
這些孳乳系統的數學結構與交大字根系統極為類似,可說是同質異形。因此,用相同的數學模式,將文字學的字形孳乳建在電腦中,並與字根系統相互參照對映,並不是難事。如果能做到這一步,就可使古今對照,承先啟後相輔相成了。這是吾等深深盼望的。
本系統收納的字形知識和文字屬性資料不能算多,只是最基礎的部份而已。但是,若能善用這些資料與知識,相信可以開發出許多漢字信息處理的程式,甚至可以發展出一些漢學研究和學習的工具。這也是我們希望能一試的。目前,本系統尚未正式成為網路上的伺服者(server),是故諸多網路上的介面亦待開發。對於這許許多多未來的工作,我們的態度是開放的。也就是說,歡迎有興趣的同仁加入我們的行列,一起分工合作。畢竟,這個系統涉及漢字信息處理的根本處,應由大家開發、大家共享。
誌 謝
感謝本實驗室的同事莊德明、張翠玲和許婉蓉,沒有他們數年的努力,這篇文章不可能和大家見面的。本系統所有的程式開發是莊先生一人研發,勞苦功高。文字資料的整理許小姐出力頗多,張小姐除整理資料、稽核文獻外,還包辦了協調、檔案管理,以及本文繕打排印等工作。而本人,似乎只動了動口而已。
【註十二】 周何、沈秋雄、周聰俊、沈德修、莊錦津,《中文字根孳乳表稿》中央圖書館,台北,1982
【註十三】 高鴻縉,《中國字例》,三民書局,台北,1960初版,1981六版 |