文獻處理實驗室 論文目錄

第一屆中國文字學會學術討論會天津 1996年8月25-30日

電子古籍中的缺字問題

Page 1 of  8

謝清俊

摘要

用計算機處理漢字資料時,常有些字的字形是交換碼中沒有的,這情形在古籍中特別嚴重。為了要保留這些字形,常用的方法是在使用者造字區內,增加這個字形,可是這樣的做法不但要付出巨大代價,也沒能真正解決問題。例如:為了新造的字,資料登錄的工作大幅增加;檢索文件時將面臨異體字檢索的難題;彼此分享資料時則更嚴重,可能重碼將造成資料錯誤或文件讀不出來的狀態,以致於根本無法共享資料。

造成這種情況的根本原因是目前計算機中預存的字形信息太少,如果我們能將字形的信息表達在計算機中,就可利用計算機來協助我們解這道難題。

本文用資料庫來表達字形的結構和該字的屬性,在字形資料庫中,字形是以其部件及字根的組合方式表達。目前已將兩岸的兩套字根建構在資料庫中,可相互為用。

如果遇到計算機中沒有的字,此時該字的輸入碼、交換碼、字形等都沒有,通常計算機是無法處理,然而字形資料庫卻可提供以字根的方式來查詢。

為了徹底解決字形的問題,我們建議將交換碼分為三個層次,即字碼、字形碼及字體碼。字碼依字的語意分別字,字形碼依字的結構來分別字形,字體碼則選擇該字的字體型式。這樣的設計可依應用的性質提供適當的電子環境。

目前,此資料庫共收錄有約九千個字,以及這些字的部份異體字。我們也正嘗試利用此字形資料庫來解決電子佛典中的缺字問題,這些例子都將在本文中報導。

未來的主要工作是將字形資料庫中字根的結構再分解為筆劃的結構。如果完成了,那麼在筆劃上構成的細微變化差異,也可以用制式的方式表達出來,電腦亦因之可以對這些變化加以區分並加利用。本文亦將報導這個制式表達的方法。

這個字形資料庫的系統是將放在電腦網路上的,所以凡可接到網路上的使用者,都可以共享它所提供的服務。此外,字形資料庫以後還可擴充到包涵字音和字義的部份。一個做法是和一部電子字典互相鉤連,並把文字學的資料一齊建立。如此,則可能發展成為文字學資料庫,成為漢學研究和學習的有力工具。


Page 1 of  8
上一頁

下一頁

文獻處理實驗室