文獻處理實驗室 論文目錄

「第二次兩岸古籍整理研究學術研討會」,北京大學,北京,1998年5月11-13日

中央研究院古籍全文資料庫解決缺字問題的方法

Page 4 of 8

肆、漢籍全文資料庫缺字的整理和分析

為了解決本院的缺字問題,本計畫從計算中心取得了本院目前所有『登記有案』的缺字資料,並加以整理、歸納、分析,以期了解本院缺字的真實狀況,和作為設計與測試『解決缺字之系統』(以下簡稱為本系統)之數據和參考。本報告即將此整理、歸納、分析之結果,作一簡要之說明【7】。

一、中央研究院的缺字

計算中心經管之缺字共分兩部份:納入五大碼使用者造字區者4,553字,未補者5,174字,共計9,727字(至1998年3月前之統計資料),這是歷年來本院所有缺字之累積。目前的五大碼造字區可容納5,809個字,已造的4,553字全在此區內,另外1,256個空碼分佈如下:

  1. FAB5-FEFE有702個

  2. 9DF6-A0FE有480個

  3. 另外74個零星散佈

為了不使本系統干擾到既有的造字區,也讓舊系統能順利的轉移到本系統,只利用計算中心目前撥給我們使用的702個空碼(FAB5-FEFE),加入非字的部件。

二、造字區內4,553字之分析

  1. 扣掉五大碼重複字13個、字體變異者6個及符號9個外,實際上的總缺字數為4,525字。

  2. 若以字數來看,4,525個缺字中,可用構字式表達者有3,903個(佔86.25%),用部件序者515個(佔11.38%),另外尚有107個(佔2.37%)需要加入字根方可拆分。

  3. 根據已上線的一億三千八百餘萬字的資料庫字數統計,4,525個缺字總字頻次為 517,891,可用構字式表達的3,903個缺字頻次為411,698(佔79.50%),515個可用部件序表達者的缺字頻次為89,638(佔17.31%),其他的107個缺字頻次為16,555(3.19%)。

三、未補者5,174字之分析

  1. 扣掉五大碼重複字7個、自己重複字10個、空白字形14個及符號199個外,實際上的總缺字數為4,944字。

  2. 若以字數來看,4,944個缺字中,可用構字式表達者有3,760個(佔76.05%),用部件序者864個(佔17.48%),另外尚有320個(佔6.47%)需要加入字根方可拆分。

  3. 未補的4,944字和199個符號的頻次是由十三經(八百六十萬字),諸子(舊的,含十九種古籍,共五百八十六萬字),古籍十八種(八百零五萬字),台灣方誌(七百五十四萬字)等(共計三千零五萬字)統計而得。

若以字頻來看,4,944個缺字總字頻次為16,598,可用構字式表達的3,760個缺字頻次為13,375(佔80.58%),864個可用部件序表達者的缺字頻次為2,409(佔14.51%),其他的320個缺字頻次為814(4.91%)。

四、本系統可處理之缺字

根據以上之資料,本院之缺字總數雖已有9,727字,但扣除因重複而產生之錯誤,異寫字,古字(如:甲骨、金文、小篆等)和符號外,實得9,469個缺字,其出現之總頻次為 517,891+16,598=534,489字次

以目前138,500,000餘字次之資料庫,對五大碼而言,缺字之機率約佔萬分之3.85。用目前的方法經4,525個造字補充後,則仍有16,598字次無法解決,亦即有約萬分之0.12弱的機會仍有缺字,若以本系統的方法來處理,則可直接解決者有517,120字次,約與舊系統相當,只餘萬分之0.125的機會仍有缺字。 然而,若廢除既有的造字檔,把目前本系統所無法直接處理者427個缺字(107+320)補上,則所有之缺字得以圓滿解決。


Page 4 of 8
上一頁

論文目錄

下一頁

文獻處理實驗室