文獻處理實驗室 論文目錄

第一屆中國文字學會學術討論會天津 1996年8月25-30日

電子古籍中的缺字問題

Page 8 of  8

伍、結語

本研究進行兩年餘始終秉持第二頁所列的原則試圖解決缺字問題。至目前雖然後繼工作仍多大體看來這是可行的路。要言之我們以增加電腦中漢字字形知識為主要手段ISO的標誌標準利用網路的溝通能力多工作業系統的方便等在不犧牲信息共享之下建立了登錄、檢索、表達缺字的能力。這能力是不分國界地區的所以有利於各地區漢字的整合以達到相互參照的目標。

在技術方面本文所提出的字形模式是封閉性的孳生系統比條舉式的開放系統所設計的交換碼無論在性能上、效率上均高一籌。我們改進了《交大字根系統》把部件集找出來使得構字式可短到兩個部件這也是一貢獻。此外我們給電腦字、字形、字體、字型、字樣等清晰的定義和表達這是一項創舉。我們並不執著這些定義及表達是完美無缺的反而我們希望大家多批評、建議以使這些基本更精確、更切合大家的需要因為這些基本定義和表達方式是日後大家共享資料共享程序的基礎。

我們延伸了漢字位標的觀念創造出漢字形標。在觀念上我們以構字的知識作為字形的識別碼(identifier和傳統的數字碼相輔相成、相得益彰。在系統方面在《電子佛典補充字集》和改善目前資料登錄系統的構想和嚐試都得到不少人士的支持。在這情形下雖然整個工作尚未完成我們覺得有需要發表出來以廣納各界的批評來改進可能的缺點。

在未來工作方面完成字根與基本筆劃間的構字關係是一要務此中包括用SGML標示來表達分毫字樣的一些細節。再者沒能將傳統文字學的信息納入是本系統的弱點也是以後要努力的地方。周何1982年的《中文字根孳乳表稿》中從文字學的角度由《中文資訊交換碼》的二萬二千餘字中歸納出聲母869,形母265並詳列字形與聲母形母的樹狀孳乳關係是值得參考的文件【註十二 高鴻縉的《中國字例》【註十三杜學知的《孳乳叢考初稿》等就字源及語意角度推演漢字孳乳形成的家族也是很值得參考的。

這些孳乳系統的數學結構與交大字根系統極為類似可說是同質異形。因此用相同的數學模式將文字學的字形孳乳建在電腦中並與字根系統相互參照對映並不是難事。如果能做到這一步就可使古今對照承先啟後相輔相成了。這是吾等深深盼望的。

本系統收納的字形知識和文字屬性資料不能算多只是最基礎的部份而已。但是若能善用這些資料與知識相信可以開發出許多漢字信息處理的程式甚至可以發展出一些漢學研究和學習的工具。這也是我們希望能一試的。目前本系統尚未正式成為網路上的伺服者(server是故諸多網路上的介面亦待開發。對於這許許多多未來的工作我們的態度是開放的。也就是說歡迎有興趣的同仁加入我們的行列一起分工合作。畢竟這個系統涉及漢字信息處理的根本處應由大家開發、大家共享。

誌 謝

感謝本實驗室的同事莊德明張翠玲許婉蓉沒有他們數年的努力這篇文章不可能和大家見面的。本系統所有的程式開發是先生一人研發勞苦功高。文字資料的整理小姐出力頗多小姐除整理資料、稽核文獻外還包辦了協調、檔案管理以及本文繕打排印等工作。而本人似乎只動了動口而已。 


註十二周何沈秋雄周聰俊沈德修莊錦津,《中文字根孳乳表稿》中央圖書館,台北,1982

註十三高鴻縉,《中國字例》,三民書局,台北,1960初版,1981六版


Page 8 of  8
上一頁

下一頁

文獻處理實驗室