中文文件自動分類之研究

摘要

本論文中，我們提出利用雙連字串（Bigram）替代關鍵詞的方法，來做中文文件自動分類的實驗。其目的，是要讓電腦來幫忙做中文文件分類，減輕人的負擔。

我們從工商時報民國80年7月到81年1月間取樣出來的2306篇財經類新聞報導，包括產業、企業、機械、電機、資訊五大類，共24小類，先人工將之分類，並分為訓練資料（2095篇）及測試資料（211篇）兩部分，根據次數、集中度、廣度三項條件，從訓練資料得到具有分類價值的關鍵詞，以向量模式、機率模式，和不同的分類比重方式來做自動分類實驗，並比較其結果。實驗結果，測試資料67%右左的正確率（召回率），若取前三名有80%的正確率；至於訓練資料則有97%的正確率。

在文中，我們探討了關鍵詞的篩選以及文件自動分類的方法，採用向量模式時，並討論了標準化的方法；同時，我們針對電腦與人工在做分類以及相似性排序時的不同點昃出簡單的比較與討論，讓我們了解之間的差異。