文獻處理實驗室 論文目錄

第六屆中國文字學全國學術研討會 1995年4月29-30日

中文字形資料庫的設計與應用

Page 3 of 3

參、實施

本系統是在IBM相容的個人電腦(PC),中文視窗3.1(WINDOWS3.1)以上的作業系統下,用Visual Basic程式語言發展出來的。系統的功能分為字集的選擇,系統內各種表格的檢視、修正,結構或統計的查詢,以及視窗的管理等項目。系統的一些視窗畫面如【圖六】所示。 

這些系統中的文字、字形、部件、字根、筆劃之呈現方式如下:

文字:以系統既有的字形呈現,若無則在系統造字區內造其形,定其碼。

字形:原則上不造其形,以字根結構式呈現。

部件:在系統造字區內造其形,並定其碼。

字根:字根集合中有300餘是文字,故可用系統字形,不是文字的字根則在造字區內造其形,定其碼。

筆劃:在系統造字區內造其形,定其碼。

至於因筆劃導致的字形、部件、字根的變化,亦不造其形,僅以A1~A8和B1函數表示在其變化的標識中。

所以,在本系統中,可以由構字上觀察到字形,由標識中觀察到筆劃的變化;卻看不到實際的「字樣」。

這個系統可以有幾個用法。當系統內尚無資料,或是要分析一套尚未載入系統的字形時,可以逐字將字形的結構資料,包括文字、字形、部件或字根、基本筆劃等。以人機互動的方式,建立電腦內部的結構。此時,若有文字或字形的字頻統計,亦可一併載入留待後用。

一套字形載入後,即可對這套文字作各種查詢,包括每一個字形的構成、字根孳乳表、文字孳乳表、以及字形、字根、部件等的統計資料。

其次,若有某字形的構字待比較,則可叫出計算機內既有的字形由人比對,或將該字的結構輸入由計算機比對。

若是有兩套字形均已載入計算機中,則計算機可以詳列此兩套字形的差異。可載入計算機中字形的套數不限。蒐集越多,則越具參考價值。

系統操作的情況實一言難盡,請參考現場操作的展示和說明。至於此系統的應用,則依使用人活用上述的用法而定。

肆、結語

這套系統的開發,並未接受任何單位的資助,是故進展緩慢,目前已具雛型,略可應用。此外沒有接受補助也有好處,那就是不涉及產權問題,是故可以讓大家共享。

此系統中已輸入一套字形,乃是根據民國六十一年林樹教授的《中文電腦用字的分析》一書,所收錄8532個字彙及其使用頻度的資料。現埸展示亦此一套字形而已。

文字資料是資訊處理最基本的資料。由於文字資料的整理一直未能規劃完備,在處理方面不知已浪費多少人力、物力和時間,甚或製造了不少文字、語文上的混亂。我們甚盼有一天,每個電腦中都配備了充份的文字資料和知識,不只能幫助提升文件處理的水準,亦將有益於民眾語言水準的提升。

文字資料是一切文獻的表達基礎,目前所納入系統中僅字形這一部份。其實,其他相關的例如:文字學、聲韻學等資料,也可以和本系統整合在一起運用。可是,這樣的發展實不是我們這個小計劃可以完成的,必須以文字學為領導,輔以資訊技術才能竟全功。

謹以此小小系統拋磚引玉,期盼有心人一同來推動。


Page 3 of 3

論文目錄

下一頁

文獻處理實驗室