中央研究院古籍全文資料庫解決缺字問題的方法 8-4

肆、漢籍全文資料庫缺字的整理和分析

為了解決本院的缺字問題，本計畫從計算中心取得了本院目前所有『登記有案』的缺字資料，並加以整理、歸納、分析，以期了解本院缺字的真實狀況，和作為設計與測試『解決缺字之系統』（以下簡稱為本系統）之數據和參考。本報告即將此整理、歸納、分析之結果，作一簡要之說明【7】。

一、中央研究院的缺字

計算中心經管之缺字共分兩部份：納入五大碼使用者造字區者4,553字，未補者5,174字，共計9,727字（至1998年3月前之統計資料），這是歷年來本院所有缺字之累積。目前的五大碼造字區可容納5,809個字，已造的4,553字全在此區內，另外1,256個空碼分佈如下：

FAB5-FEFE有702個
9DF6-A0FE有480個
另外74個零星散佈

為了不使本系統干擾到既有的造字區，也讓舊系統能順利的轉移到本系統，只利用計算中心目前撥給我們使用的702個空碼（FAB5-FEFE），加入非字的部件。

二、造字區內4,553字之分析

扣掉五大碼重複字13個、字體變異者6個及符號9個外，實際上的總缺字數為4,525字。
若以字數來看，4,525個缺字中，可用構字式表達者有3,903個(佔86.25%)，用部件序者515個(佔11.38%)，另外尚有107個(佔2.37%)需要加入字根方可拆分。
根據已上線的一億三千八百餘萬字的資料庫字數統計，4,525個缺字總字頻次為 517,891，可用構字式表達的3,903個缺字頻次為411,698(佔79.50%)，515個可用部件序表達者的缺字頻次為89,638(佔17.31%)，其他的107個缺字頻次為16,555(3.19%)。

三、未補者5,174字之分析

扣掉五大碼重複字7個、自己重複字10個、空白字形14個及符號199個外，實際上的總缺字數為4,944字。
若以字數來看，4,944個缺字中，可用構字式表達者有3,760個(佔76.05%)，用部件序者864個(佔17.48%)，另外尚有320個(佔6.47%)需要加入字根方可拆分。
未補的4,944字和199個符號的頻次是由十三經（八百六十萬字），諸子（舊的，含十九種古籍，共五百八十六萬字），古籍十八種（八百零五萬字），台灣方誌（七百五十四萬字）等（共計三千零五萬字）統計而得。

若以字頻來看，4,944個缺字總字頻次為16,598，可用構字式表達的3,760個缺字頻次為13,375(佔80.58%)，864個可用部件序表達者的缺字頻次為2,409(佔14.51%)，其他的320個缺字頻次為814(4.91%)。

四、本系統可處理之缺字

根據以上之資料，本院之缺字總數雖已有9,727字，但扣除因重複而產生之錯誤，異寫字，古字（如：甲骨、金文、小篆等）和符號外，實得9,469個缺字，其出現之總頻次為 517,891+16,598=534,489字次

以目前138,500,000餘字次之資料庫，對五大碼而言，缺字之機率約佔萬分之3.85。用目前的方法經4,525個造字補充後，則仍有16,598字次無法解決，亦即有約萬分之0.12弱的機會仍有缺字，若以本系統的方法來處理，則可直接解決者有517,120字次，約與舊系統相當，只餘萬分之0.125的機會仍有缺字。然而，若廢除既有的造字檔，把目前本系統所無法直接處理者427個缺字（107+320）補上，則所有之缺字得以圓滿解決。