「第二次兩岸古籍整理研究學術研討會」,北京大學,北京,1998年5月11-13日 中央研究院古籍全文資料庫解決缺字問題的方法 |
Page 4 of 8 |
肆、漢籍全文資料庫缺字的整理和分析 為了解決本院的缺字問題,本計畫從計算中心取得了本院目前所有『登記有案』的缺字資料,並加以整理、歸納、分析,以期了解本院缺字的真實狀況,和作為設計與測試『解決缺字之系統』(以下簡稱為本系統)之數據和參考。本報告即將此整理、歸納、分析之結果,作一簡要之說明【7】。 一、中央研究院的缺字計算中心經管之缺字共分兩部份:納入五大碼使用者造字區者4,553字,未補者5,174字,共計9,727字(至1998年3月前之統計資料),這是歷年來本院所有缺字之累積。目前的五大碼造字區可容納5,809個字,已造的4,553字全在此區內,另外1,256個空碼分佈如下:
為了不使本系統干擾到既有的造字區,也讓舊系統能順利的轉移到本系統,只利用計算中心目前撥給我們使用的702個空碼(FAB5-FEFE),加入非字的部件。 二、造字區內4,553字之分析
若以字頻來看,4,944個缺字總字頻次為16,598,可用構字式表達的3,760個缺字頻次為13,375(佔80.58%),864個可用部件序表達者的缺字頻次為2,409(佔14.51%),其他的320個缺字頻次為814(4.91%)。 四、本系統可處理之缺字根據以上之資料,本院之缺字總數雖已有9,727字,但扣除因重複而產生之錯誤,異寫字,古字(如:甲骨、金文、小篆等)和符號外,實得9,469個缺字,其出現之總頻次為 517,891+16,598=534,489字次 以目前138,500,000餘字次之資料庫,對五大碼而言,缺字之機率約佔萬分之3.85。用目前的方法經4,525個造字補充後,則仍有16,598字次無法解決,亦即有約萬分之0.12弱的機會仍有缺字,若以本系統的方法來處理,則可直接解決者有517,120字次,約與舊系統相當,只餘萬分之0.125的機會仍有缺字。 然而,若廢除既有的造字檔,把目前本系統所無法直接處理者427個缺字(107+320)補上,則所有之缺字得以圓滿解決。 |
Page 4 of 8 |