文獻處理實驗室 論文目錄

第六屆中國文字學全國學術研討會 1995年4月29-30日

中文字形資料庫的設計與應用

Page 1 of 3

謝清俊莊德明張翠玲許婉蓉

摘要

本文介紹一個記載漢字字形的資料庫,它能記錄字形結構和筆劃上的變化,並與已經記載在資料庫內的字形做相似程度的比較。此外,它也提供簡單的統計,以量化數據說明一些字形或構字上的特徵。這個資料庫原本是為字體交換協會(AFII)所做。整個資料庫也可視為一個計算機使用的文字與字形的制式定義。

本文首先說明系統使用的文字與字形的制式模式,然後介紹此系統的設計與實作,最後,報告此系統發展的現況。本文採用的文字與字形模式,是根據民國六十一年發表的交大字根模式增益而成的。字形的變化可歸納為筆劃的變化、字根或部件的變化、和整個字的變化等三個等級。本系統是在IBM相容的個人電腦(PC),中文視窗(WINDOWS 3.1)以上的作業系統下完成的。

 

壹、緣起

本文介紹一個記載漢字字形的資料庫,它能記錄字形結構和筆劃上的變化,並與已經記載在資料庫內的字形做相似程度的比較。此外,它也提供簡單的統計,以量化數據說明一些字形或構字上的特徵。

這個資料庫原本是為字體交換協會(AFII, Association for Font Information Interchange,以下簡稱字協)所做。字協是為國際標準組織(ISO)執行ISO 9541,即登記標準字體(standard font)的字樣(typeface)和設計(design)的財團法人。三年前,字協承印 ISO 10646碼本時,面臨由大陸、日本、韓國、和臺灣蒐集的數萬漢字,涉及許多頭痛的問題,其中之一就是這些字在構字和筆劃上頗不一致。

在一般人的印象裡,各地區的漢字應該有很多是相同的。果真如此,計算機在處理時就可以省下許多儲存的空間、處理的時間和管理上的負荷,甚至編碼的位置也可共用而節省了。然而,這些漢字雖然都是仿宋體或類似仿宋體者,在構字和筆劃上卻不盡相同,仍有差異。更不幸的是,各地區都堅持這些差異處有理,不肯稍加修改以求一致。於是,判別這些差異,就變成了字體登記上極耗時耗力的問題。

其實,這個問題的根本所在,仍應歸咎於ISO 10646的設計。ISO10646的設計並沒有充份考慮到漢字的性質,亦即設計所用的文字學知識甚為膚淺(甚至可說完全沒有!),以致於沒有辦法面對或解決這個問題。這種情形連美國的標準組織工作組也注意到了,幾經與ISO相關工作組協商都不得要領的情形下,發表了一份文件,說明文字(character)和字形(glyph)之間應該確立的關係【註一】。換言之,計算機中需要一個制式的定義(formal model)來界定什麼是文字、什麼是字形,以及此二者之間的關係,這樣才能好好的利用計算機來處理文字和字形。 

關於文字與字形的制式定義,並不是沒有人研究,日本、台灣、大陸、美國等都有人做過,商品上也早已用過。只不過除了大陸以外,都沒有把這種制式模式提昇到國家標準的層次,因此,也就難以搬上世界標準的舞台。

本文所敘述的資料庫,就是在上述的背景下,為釐清文字及其字形的變化所設計的,整個資料庫也可視為一個計算機用的文字與字形的制式定義。在下文中,我們將先介紹本系統使用的文字與字形的制式模式,然後介紹此系統的設計與實作。最後,報告此系統發展的現況作為結束。

由於文字與我們的生活關係至深,文字累積的資料和知識理應因由國人共享,所以,我們發展的這個小小工具,願意免費提供給大家使用。有意者請洽作者。


註一】請參照美國標準工作小組X3L2X3V1在1993年9月聯合發表的文件<Character Glyph Operational Model>此文件經黃大一先生譯為中文,用於中央標準局與資策會合辦的資訊標準應用研討會(1994年5月,台北)。又,此文件在ISO之文件編號為ISO/IEC JTC1/SC18/WG8 N1615並準備改寫成為ISO正式的技術報告(ISO Technical Report)。 


Page 1 of 3
上一頁

論文目錄

下一頁

文獻處理實驗室