「電子古籍中的文字問題研討會」 1999年6月14-16日 漢字印刷字形的整理 |
Page 5 of 6 |
伍、缺字的檢索機制
古籍電子化的一個重要動機就是檢索,而檢索的機制又和字形的表達息息相關。目前電腦在面對漢字時,都採用數位編碼,首定定義一個標準字集,然後再針對字集裡的每一個字,給予一個數位碼,編入標準字區。至於那些字集沒有收錄的缺字,則放在使用者造字區。由於造字區和標準字區都採用數位編碼,所以標準字的檢索機制仍可適用。相較於數位編碼,改用構字式或部件序來表達缺字的方式,我們稱為構形編碼。由於構形編碼和數位編碼不同,現有的檢索機制必須作適度的調整,才能夠同時檢索缺字。如字串「 著衣持金禰」的『金禰』只是一個字,無法用「金」或「本」來檢索。數位編碼有一個特色,即一形一碼;構形編碼在理論上,是一形多碼,因為每一個缺字都可用構字式或部件序表達。實用上,構字式仍是最常用的缺字表達法,由於受限於現有的部件,大多數字形都只有一個構字式,如『 礎=石繴』,但是也有例外,如「霬」有『雨騍』、『雷韘@』、『雨韖韘@』、『雨韖\韙K』四個構字式。相對於構字式,部件序的變化就多了。由於部件的可拆分性,一個字常有好個部件序,如『出米翟』、『出米羽隹』都是「糶」的部件序。對於部件的熟悉程度不同,構字式和部件序也可能混合使用,如『屆=尸』、『屆=尸凵土』。少數部件的書寫順序,有時也會因人而異,如『屆=尸凵土』或『屆=尸土凵』。另外,方便符號也會讓缺字的表達更多樣化,如『遻=鶪f』或『遻=髐f口』。同一個缺字儘管有各種不同的表達法,但是這些表達法所對應的字根序或字根組是相同的,如『 雨騍』、『雷韘@』、『雨韖韘@』、『雨韖\韙K』的字根序皆為『雨田\八』,『尸凵土』、『尸土凵』的字根組皆為『土尸凵』。從檢索的觀點來看,為了能讓使用者享有最大彈性,對於缺字的各種表達方法,都要接受,因此缺字在計算機中的表達,除了構字式和部件序外,還要再加上字根序及字根組。構字式和部件序其實可共享同樣的結構,因為構字式等於拆分符號加上部件序,而部件序可視為沒有拆分符號的構字式。至於字根序可由部件序轉換而得,而字根組則可由字根序轉換而得。另外,異寫部件也會再增加檢索的複雜性,如『 p』及『示』皆可檢索「福」。綜合上述,缺字的檢索機制可以描述如下:
構形編碼除了一形多碼的問題外,也有一碼多形的情形,以下是三個主要字集的分析情形: 這三個字集中,構字式相同的字形,有「喦」、「嵒」及「礣」、「 」兩組,然而「喦」及「嵒」兩字本身就難以分辨,而「礣」、「 」的差異在於「虎」有兩種包含方式。部件序相同的字形,事實上都是同一個字,只不過是部件位置不同而造成字形的差異,這些字形由於缺乏適當的部件,以致無法用構字式區分,如「嵇」和「鵨」、「醢」和「箴」等。部件序相同的字形,由於字數很少,可利用標示「」加上編號來區分,如『嵇=禾尤山1』、『鵨=禾尤山2』。由此也可看出,為了減少部件數量而提出的部件序,對字形識別的影響相當小。 |