電子古籍中的缺字問題 8-1

謝清俊

摘要

用計算機處理漢字資料時，常有些字的字形是交換碼中沒有的，這情形在古籍中特別嚴重。為了要保留這些字形，常用的方法是在使用者造字區內，增加這個字形，可是這樣的做法不但要付出巨大代價，也沒能真正解決問題。例如：為了新造的字，資料登錄的工作大幅增加；檢索文件時將面臨異體字檢索的難題；彼此分享資料時則更嚴重，可能重碼將造成資料錯誤或文件讀不出來的狀態，以致於根本無法共享資料。

造成這種情況的根本原因是目前計算機中預存的字形信息太少，如果我們能將字形的信息表達在計算機中，就可利用計算機來協助我們解這道難題。

本文用資料庫來表達字形的結構和該字的屬性，在字形資料庫中，字形是以其部件及字根的組合方式表達。目前已將兩岸的兩套字根建構在資料庫中，可相互為用。

如果遇到計算機中沒有的字，此時該字的輸入碼﹑交換碼﹑字形等都沒有，通常計算機是無法處理，然而字形資料庫卻可提供以字根的方式來查詢。

為了徹底解決字形的問題，我們建議將交換碼分為三個層次，即字碼﹑字形碼及字體碼。字碼依字的語意分別字，字形碼依字的結構來分別字形，字體碼則選擇該字的字體型式。這樣的設計可依應用的性質提供適當的電子環境。

目前，此資料庫共收錄有約九千個字，以及這些字的部份異體字。我們也正嘗試利用此字形資料庫來解決電子佛典中的缺字問題，這些例子都將在本文中報導。

未來的主要工作是將字形資料庫中字根的結構再分解為筆劃的結構。如果完成了，那麼在筆劃上構成的細微變化差異，也可以用制式的方式表達出來，電腦亦因之可以對這些變化加以區分並加利用。本文亦將報導這個制式表達的方法。

這個字形資料庫的系統是將放在電腦網路上的，所以凡可接到網路上的使用者，都可以共享它所提供的服務。此外，字形資料庫以後還可擴充到包涵字音和字義的部份。一個做法是和一部電子字典互相鉤連，並把文字學的資料一齊建立。如此，則可能發展成為文字學資料庫，成為漢學研究和學習的有力工具。