文獻處理實驗室 專案計畫

行政院科技顧問組 委辦研究計劃 1998年2月

第十一章    漢字的構字規律和解決缺字問題的方法

Page 4 of 10

肆、交換碼的檢討

一時之字形規範固有其正面之效益和作用然而也不免產生新的形體而導致漢字字形之累增。近年來大陸推行的簡化字二次大戰後日本推行的漢字改革及新近台灣公佈的標準字形等莫不如此這些字形新標準的構形也無一不是根據長久以來民間用字的約定俗成。若無約定俗成的歷史淵源這些新字形將無由產生也不可能為廣大民眾順利接受。就文化生命而言因社會進步生活環境的變遷而導致文字運用上形體改變的這個生命活力源頭實應善加維護、珍惜和尊重否則無異殘傷語文和文化的自然發展法則並危及漢字適應生存的本能。

漢字交換碼的設計都遵循各國標準字集這似乎是理所當然殊不知國家標準集的訂定都有其政治目的和前述約制文字的企圖並非完全依據使用者的需求或漢語文運用的自然法則而訂。處此情境交換碼可滿足者就會有限度不可能普及使用者所有的需求凡涉及歷史、文化之資料如地名、人名或用於學術、古籍、藝術等領域就常顯得過於局限而字不夠用。

計算機要面對的不僅是時下的國家標準字從使用者的角度來看計算機面對的是歷史上所有曾經出現過的字無分正偽、繁簡、雅俗、古今……等區別。亦無所謂現在已不用的「死字」這些「死字」在你指出它時它就已復活了!只有用這麼大的胸襟氣度來討論、來設計計算機所需的字集才不會在資訊科技(information technology)的運用上造成文字、語言和文化上的階級和岐視。

目前交換碼的根本病源是錯把字形當作字。在此名實不符的情形下名叫字碼(character code)而實際上卻以字形的差異來判別字。例如五大碼中饑(C4C8)和飢(B047)分別佔兩個碼位。那麼它們是不是同一個字呢?依碼中的定義不是;但在語用上實在是同一個字的兩個形罷了。這種情形在各交換碼中比比皆是UnicodeISO10646也不例外。從文字學和語言學的角度看來這種文字知識的表達根本是錯誤的不健康的。從科學的角度來看定義都錯了往後推演可以勿論。像這種不健康的設計導致目前應用上捉襟見肘毛病百出並不是意外的事。要改善交換碼自應從此處下手。

此外應知漢字集合從集合論的觀點來看是一個開放集合(open set隨時可能增加字。它和封閉式的字母集合(close set)不同字母是不會再增的。這些基本性質的不同將導致其不同的性質和處理方式。可是目前的做法卻是套用ISO 646處理字母的方法來編漢字的碼。這真是削足適履。以上的說明和批評是希望大家了解要改良現有的交換碼必須要爭脫既有的思考巢臼否則不會有徹底解決的辦法。以下就是我們根據上述的原則對改善現有交換碼所提出的方案。


Page 4 of 10
上一頁

回目錄

下一頁

文獻處理實驗室