中文字形資料庫的設計與應用 3-3

參、實施

本系統是在IBM相容的個人電腦(PC)，中文視窗3.1(WINDOWS3.1)以上的作業系統下，用Visual Basic程式語言發展出來的。系統的功能分為字集的選擇，系統內各種表格的檢視、修正，結構或統計的查詢，以及視窗的管理等項目。系統的一些視窗畫面如【圖六】所示。　

這些系統中的文字、字形、部件、字根、筆劃之呈現方式如下：

文字：以系統既有的字形呈現，若無則在系統造字區內造其形，定其碼。

字形：原則上不造其形，以字根結構式呈現。

部件：在系統造字區內造其形，並定其碼。

字根：字根集合中有300餘是文字，故可用系統字形，不是文字的字根則在造字區內造其形，定其碼。

筆劃：在系統造字區內造其形，定其碼。

至於因筆劃導致的字形、部件、字根的變化，亦不造其形，僅以A1~A8和B1函數表示在其變化的標識中。

所以，在本系統中，可以由構字上觀察到字形，由標識中觀察到筆劃的變化；卻看不到實際的「字樣」。

這個系統可以有幾個用法。當系統內尚無資料，或是要分析一套尚未載入系統的字形時，可以逐字將字形的結構資料，包括文字、字形、部件或字根、基本筆劃等。以人機互動的方式，建立電腦內部的結構。此時，若有文字或字形的字頻統計，亦可一併載入留待後用。

一套字形載入後，即可對這套文字作各種查詢，包括每一個字形的構成、字根孳乳表、文字孳乳表、以及字形、字根、部件等的統計資料。

其次，若有某字形的構字待比較，則可叫出計算機內既有的字形由人比對，或將該字的結構輸入由計算機比對。

若是有兩套字形均已載入計算機中，則計算機可以詳列此兩套字形的差異。可載入計算機中字形的套數不限。蒐集越多，則越具參考價值。

系統操作的情況實一言難盡，請參考現場操作的展示和說明。至於此系統的應用，則依使用人活用上述的用法而定。

肆、結語

這套系統的開發，並未接受任何單位的資助，是故進展緩慢，目前已具雛型，略可應用。此外沒有接受補助也有好處，那就是不涉及產權問題，是故可以讓大家共享。

此系統中已輸入一套字形，乃是根據民國六十一年林樹教授的《中文電腦用字的分析》一書，所收錄8532個字彙及其使用頻度的資料。現埸展示亦此一套字形而已。

文字資料是資訊處理最基本的資料。由於文字資料的整理一直未能規劃完備，在處理方面不知已浪費多少人力、物力和時間，甚或製造了不少文字、語文上的混亂。我們甚盼有一天，每個電腦中都配備了充份的文字資料和知識，不只能幫助提升文件處理的水準，亦將有益於民眾語言水準的提升。

文字資料是一切文獻的表達基礎，目前所納入系統中僅字形這一部份。其實，其他相關的例如：文字學、聲韻學等資料，也可以和本系統整合在一起運用。可是，這樣的發展實不是我們這個小計劃可以完成的，必須以文字學為領導，輔以資訊技術才能竟全功。

謹以此小小系統拋磚引玉，期盼有心人一同來推動。