文獻處理實驗室 論文目錄

「電子古籍中的文字問題研討會」 1999年6月14-16日

漢字印刷字形的整理

Page 5 of 6

伍、缺字的檢索機制

古籍電子化的一個重要動機就是檢索,而檢索的機制又和字形的表達息息相關。目前電腦在面對漢字時,都採用數位編碼,首定定義一個標準字集,然後再針對字集裡的每一個字,給予一個數位碼,編入標準字區。至於那些字集沒有收錄的缺字,則放在使用者造字區。由於造字區和標準字區都採用數位編碼,所以標準字的檢索機制仍可適用。相較於數位編碼,改用構字式或部件序來表達缺字的方式,我們稱為構形編碼。由於構形編碼和數位編碼不同,現有的檢索機制必須作適度的調整,才能夠同時檢索缺字。如字串「著衣持金禰」的『金禰』只是一個字,無法用「」或「」來檢索。

數位編碼有一個特色,即一形一碼;構形編碼在理論上,是一形多碼,因為每一個缺字都可用構字式或部件序表達。實用上,構字式仍是最常用的缺字表達法,由於受限於現有的部件,大多數字形都只有一個構字式,如『礎=石繴』,但是也有例外,如「」有『雨騍』、『雷韘@』、『雨韖韘@』、『雨韖\韙K』四個構字式。相對於構字式,部件序的變化就多了。由於部件的可拆分性,一個字常有好個部件序,如『出米翟』、『出米羽隹』都是「」的部件序。對於部件的熟悉程度不同,構字式和部件序也可能混合使用,如『屆=尸』、『屆=尸凵土』。少數部件的書寫順序,有時也會因人而異,如『屆=尸凵土』或『屆=尸土凵』。另外,方便符號也會讓缺字的表達更多樣化,如『遻=鶪f』或『遻=髐f口』。

同一個缺字儘管有各種不同的表達法,但是這些表達法所對應的字根序或字根組是相同的,如『雨騍』、『雷韘@』、『雨韖韘@』、『雨韖\韙K』的字根序皆為『雨田\八』,『尸凵土』、『尸土凵』的字根組皆為『土尸凵』。從檢索的觀點來看,為了能讓使用者享有最大彈性,對於缺字的各種表達方法,都要接受,因此缺字在計算機中的表達,除了構字式和部件序外,還要再加上字根序及字根組。構字式和部件序其實可共享同樣的結構,因為構字式等於拆分符號加上部件序,而部件序可視為沒有拆分符號的構字式。至於字根序可由部件序轉換而得,而字根組則可由字根序轉換而得。

另外,異寫部件也會再增加檢索的複雜性,如『p』及『』皆可檢索「」。綜合上述,缺字的檢索機制可以描述如下:

  1. 異寫部件的取代。
  2. 構字式(或部件序)比對,若不成功,則將構字式或部件序轉成字根序,繼續下一個步驟的字根序比對。
  3. 字根序比對,若不成功,則將字根序轉成字根組,繼續下一個步驟的字根組比對。
  4. 字根組比對,若不成功,表示這個缺字尚未收錄在字形資料庫中。

構形編碼除了一形多碼的問題外,也有一碼多形的情形,以下是三個主要字集的分析情形:

  1. Big513053個字形中,除了2個重複的字形外,可用構字式表達者有12746個,部件序305個。其中表達相同的,構字式1個,字根序29個,字根組123個。
  2. 《中文大辭典》已完全拆分的48285個字形中,除了79個重複的字形外,以構字式表達者40796個,部件序7489個。其中表達相同的,構字式2個,部件序8個,字根序448個,字根組1938個。
  3. 《漢語大字典》已完全拆分的53227個字形中,除了76個重複的字形外,以構字式表達者44366個,部件序8861個。其中表達相同的,構字式1個,部件序17個,字根序563個,字根組2161個。

這三個字集中,構字式相同的字形,有「」、「」及「」、「 」兩組,然而「」及「」兩字本身就難以分辨,而「」、「 」的差異在於「虎」有兩種包含方式。部件序相同的字形,事實上都是同一個字,只不過是部件位置不同而造成字形的差異,這些字形由於缺乏適當的部件,以致無法用構字式區分,如「」和「」、「」和「」等。部件序相同的字形,由於字數很少,可利用標示「」加上編號來區分,如『嵇=禾尤山1』、『=禾尤山2』。由此也可看出,為了減少部件數量而提出的部件序,對字形識別的影響相當小。


Page 5 of 6
上一頁

論文目錄

下一頁

文獻處理實驗室