文獻處理實驗室 論文目錄

「電子古籍中的文字問題研討會」 1999年6月14-16日

漢字印刷字形的整理

Page 3 of 6

參、表達缺字的方法

以構形來表達缺字,其中最重要的是部件,其次才是部件的放置位置,即部件的組合順序和組合方式。部件包含字根與合成部件,而部件的組合方式則有橫連、直連及包含三種方式。缺字的表達式中,部件、組合順序及組合方式全部具足的,稱作部件式。部件式是把漢字視為一個二度空間圖案,然後再將部件依橫連、直連及包含的方式拼出,並以括號表示運算之優先,其中橫連指的是由左至右,直連是由上至下,包含是由外至內,如『堰=土藗』、『匽=匚』、『牷蚺韙k』。由於部件還可再拆分成較小的部件或字根,所以一個字可能有好幾個部件式,如『』的部件式除了『土藗』之外,還有『土礡]匚牷^』。

假使把部件式中的每一個部件再輾轉以字根依橫連、直連及包含的方式拼出,這便是字根式,如『堰=土礡]匚鞳]日韙k))』。雖然一個字可能有好個部件式,但是這些部件式所對應的字根式都是一樣的。從使用的頻度來看,部件式中使用最頻繁的,是像『堰=土藗』這種只用到一種拆分符號和兩個部件的部件式。只用到一種拆分符號的部件式,我們稱作構字式。構字式雖然只能有一種拆分符號,但是可以重複使用,如峚=山韙j韙g』、『粥=弓穧礞}』。相對於部件式和字根式,構字式不但簡潔,而且所含的資訊並沒有減少,構形依然一樣的嚴謹,所以構字式仍可轉成部件式和字根式。然而在兼顧嚴謹及簡潔之下,構字式要付出的代價就是大量的非成字部件,這也使得它所需的部件集遠比部件式和字根式來得大。

部件式雖然包含部件、組合順序及組合方式,但是在字形的識別上,最重要的仍然是部件,假使把部件式中的拆分符號和括號抽離,所剩下的部件,我們稱為部件序,如土礡]匚牷^』是「」的部件式,而『土匚』是部件序。除了少數字形外,部件序幾乎就是漢字部件的書寫順序,書寫漢字時筆畫順序或許因人而異,但是部件的順序卻極為一致。部件序和部件書寫順序不一致的例子,如「」的部件序為『凵I』,而部件書寫順序為『I凵』。由於一個字可能有好幾個部件式,所以也會存在好幾個部件序。同樣的,把字根式中的拆分符號和括號抽離,所剩下的字根,我們稱為字根序,如土礡]匚鞳]日韙k))』是「」的字根式,而『土匚日女』是字根序。雖然一個字可能有好個部件序,但是這些部件序所對應的字根序都是一樣的。

假使將部件序的部件按照某種任意假定的次序排序,我們稱為部件組,部件組實質上就是忽略部件的組合或書寫順序。同樣的,字根序的字根按照某種任意假定的次序排序,我們稱為字根組,如「」的字根序『土匚日女』按照字根使用頻度排序後為『日土女匚』。

在上述各種缺字的表達法中,若由構形的嚴謹和表達的簡潔來考量,構字式無異是最佳的選擇。然而構字式在實際應用上,由於非成字部件太多而造成實施上的困擾。為了減低部件數量,必須在構形的嚴謹和表達的簡潔上有所犧牲,最後我們保留了表達的簡潔,因為構形的嚴謹在字形的識別上並不是那麼重要,如『土藗』、『土匚日女』或『日土女p』在林樹字集中都是唯一的,皆可識別「」。部件的取捨標準,是由使用頻度決定,在保留99.9%的字都可採用構字式表達的條件下,其他比較罕用的合成部件可以捨棄。至於那些因部件捨棄而無法再以構字式表達的字形,可改採部件序,因為部件序無需拆分符號及括號,因此也比部件式及字根式來得簡潔。

構字式由於包含拆分符號,所以和其他字形混合時,並沒有辨識上的困難,如《金剛經》:「爾時世尊食時,著衣持金禰說A入舍衛大城乞食,於其城中,次第乞已,還至本處。」中的『金禰』。但是部件序和其他字形混合時,前後必須再加上標示符號「」及「」,才能區分,如『穎=匕禾頁』。另外,可用構字式表達者,當然也可用部件序,然而構字式比部件序嚴謹,仍應儘可能用構字式。

為了表達上的簡潔,我們依漢字構形特色加了八個方便符號,分別是「鶠v(二個相同部件橫連)、「禲v(二個相同部件直連)、「齱v(三個相同部件橫連)、「驉v(三個相同部件直連)、「騿v(三個相同部件三角排列)、「」(四個相同部件橫連)、「」(四個相同部件直連)、「龤v(四個相同部件四角排列)。方便符號的例子如『=鶚J』、『=』、『=』、『=』等。方便符號可用於構字式,以擴大構字式的適用範圍,部分原先只能用部件序表達的字,加上方便符號後,即可改用構字式,如『=鶗颸A』、『=穭H禰B』、『=鬗S韙』、『=口糷S』等。方便符號也可用於部件序中,讓字形的表達更為方便及精確,例如『=糷S酉欠』中的「糷S」不但比「又又又又」來得方便,也更精確。方便符號也讓一些字的表達式既不需組合符號,也不需起始及終結標示,如『=』。


Page 3 of 6
上一頁

論文目錄

下一頁

文獻處理實驗室