文獻處理實驗室 論文目錄

漢字字碼與資料庫國際研討會,京都•東京 1996年10月4日
從缺字問題,談漢字交換碼的重新設計──第一部分

漢字的字形與編碼

Page 4 of 6

肆、文字的制式定義與表達

字、字形、字體這些名詞在我們語用中常常代表著不盡相同的意思,但佐以情境,我們並不覺得有溝通的障礙。可是,電腦遠沒有人靈活,也沒情境可參照,所以必需對這些名詞作制式的界定,電腦才能據以順利地處理文字信息。本節將說明一些關鍵詞在本系統中的工作定義。

字(character)是表達一種或一群概念的名相。它是抽象的,以語意區別。例如,對應的繁體和簡體是同一個字。在電腦中,字用一個識別碼(identifier)表示,此識別碼可以是交換碼,也可以是內部處理方便使用的「內碼」,或是輸入時的「輸入碼」。為方便計,以下的討論均以交換碼來代表字。目前,字所承載的語意還沒能表達在系統中,所以電腦並沒有方法可以直接處理語意信息。

如前所述,一個字可能有許多字形(glyph)。字形也抽象的,區別字形的關鍵在於它的組成結構,亦即構字,如前例,繁體和簡體屬於不同的字形。偶爾,也有些字會用同一字形的。所以,以數學關係來說,字之於字形大多數是一對一或一對多的關係,偶有例外。

字形只界定構字,並不關心該字好不好看。依同一規範製作的一群字屬於同一種字體(font)。字體也是抽象的,區別的關鍵在於它的設計規範。雖然字體有設計規範以表現其劃一的特色,但仍有藝術創作的空間,允許設計者表現自己的風格。所以,同一字體下各廠商設計的「字型(style)」會現出不同的表情、風貌。一種字型設計,通常有些參數來決定它呈現的大小、粗細、橫直粗細比列、疏密以及一些特殊裝飾的邊角等等。待這些參數選定了,才能借媒介呈現出這個字的面貌,此稱為字樣(typeface)。唯有字樣才是具體可見的。照理說,這些字體和字型在設計上產生的形狀變化(以下簡稱為字體變化)是不應該違反構字規律(即字形的定義)的,然而在實務上並沒有這麼嚴謹,也造成了些字形上的差異,詳細的分析如後文。

上述的關係可參見〔圖一〕。所謂文字的制式表達,即將〔圖一〕中的關係用電腦能了解的方式,表達在電腦中。字的表達已如前述。字體的信息存在字體庫(font library)中,這是大家熟習的,毋庸多言。目前電腦中無字形信息,或者說是字與字形不分,混淆著用,所以無法分別及處理異體字。我們設計的字形資料庫就是要填補這個空缺,它擁有字與字形間關係的對映,以及字形的結構模式。

圖一:字、字形、字體和字樣的關係

圖一:字、字形、字體和字樣的關係


Page 4 of 6
上一頁

論文目錄

下一頁

文獻處理實驗室