漢字印刷字形的整理 6-5

伍、缺字的檢索機制

古籍電子化的一個重要動機就是檢索，而檢索的機制又和字形的表達息息相關。目前電腦在面對漢字時，都採用數位編碼，首定定義一個標準字集，然後再針對字集裡的每一個字，給予一個數位碼，編入標準字區。至於那些字集沒有收錄的缺字，則放在使用者造字區。由於造字區和標準字區都採用數位編碼，所以標準字的檢索機制仍可適用。相較於數位編碼，改用構字式或部件序來表達缺字的方式，我們稱為構形編碼。由於構形編碼和數位編碼不同，現有的檢索機制必須作適度的調整，才能夠同時檢索缺字。如字串「著衣持金岙本」的『金岙本』只是一個字，無法用「金」或「本」來檢索。

數位編碼有一個特色，即一形一碼；構形編碼在理論上，是一形多碼，因為每一個缺字都可用構字式或部件序表達。實用上，構字式仍是最常用的缺字表達法，由於受限於現有的部件，大多數字形都只有一個構字式，如『礎＝石岙楚』，但是也有例外，如「霬」有『雨熷異』、『雷熷共』、『雨熷田熷共』、『雨熷田熷胬熷八』四個構字式。相對於構字式，部件序的變化就多了。由於部件的可拆分性，一個字常有好個部件序，如『出米翟』、『出米羽隹』都是「糶」的部件序。對於部件的熟悉程度不同，構字式和部件序也可能混合使用，如『屆＝尸㶊橴』、『屆＝䏁尸凵土㗱』。少數部件的書寫順序，有時也會因人而異，如『屆＝䏁尸凵土㗱』或『屆＝䏁尸土凵㗱』。另外，方便符號也會讓缺字的表達更多樣化，如『遻＝䏁𠮩㶑口椉㗱』或『遻＝䏁𠮩口口椉㗱』。

同一個缺字儘管有各種不同的表達法，但是這些表達法所對應的字根序或字根組是相同的，如『雨熷異』、『雷熷共』、『雨熷田熷共』、『雨熷田熷胬熷八』的字根序皆為『雨田胬八』，『尸凵土』、『尸土凵』的字根組皆為『土尸凵』。從檢索的觀點來看，為了能讓使用者享有最大彈性，對於缺字的各種表達方法，都要接受，因此缺字在計算機中的表達，除了構字式和部件序外，還要再加上字根序及字根組。構字式和部件序其實可共享同樣的結構，因為構字式等於拆分符號加上部件序，而部件序可視為沒有拆分符號的構字式。至於字根序可由部件序轉換而得，而字根組則可由字根序轉換而得。

另外，異寫部件也會再增加檢索的複雜性，如『𠹸岙风』及『示岙风』皆可檢索「福」。綜合上述，缺字的檢索機制可以描述如下：

異寫部件的取代。
構字式（或部件序）比對，若不成功，則將構字式或部件序轉成字根序，繼續下一個步驟的字根序比對。
字根序比對，若不成功，則將字根序轉成字根組，繼續下一個步驟的字根組比對。
字根組比對，若不成功，表示這個缺字尚未收錄在字形資料庫中。

構形編碼除了一形多碼的問題外，也有一碼多形的情形，以下是三個主要字集的分析情形：

Big5的13053個字形中，除了2個重複的字形外，可用構字式表達者有12746個，部件序305個。其中表達相同的，構字式1個，字根序29個，字根組123個。

《中文大辭典》已完全拆分的48285個字形中，除了79個重複的字形外，以構字式表達者40796個，部件序7489個。其中表達相同的，構字式2個，部件序8個，字根序448個，字根組1938個。

《漢語大字典》已完全拆分的53227個字形中，除了76個重複的字形外，以構字式表達者44366個，部件序8861個。其中表達相同的，構字式1個，部件序17個，字根序563個，字根組2161個。

這三個字集中，構字式相同的字形，有「喦」、「嵒」及「礣」、「　」兩組，然而「喦」及「嵒」兩字本身就難以分辨，而「礣」、「　」的差異在於「虎」有兩種包含方式。部件序相同的字形，事實上都是同一個字，只不過是部件位置不同而造成字形的差異，這些字形由於缺乏適當的部件，以致無法用構字式區分，如「嵇」和「鵨」、「醢」和「箴」等。部件序相同的字形，由於字數很少，可利用標示「�」加上編號來區分，如『嵇＝䏁禾尤山�1㗱』、『鵨＝䏁禾尤山�2㗱』。由此也可看出，為了減少部件數量而提出的部件序，對字形識別的影響相當小。