文獻處理實驗室 論文目錄

當前語文問題學術研討會 (國立台灣大學文學院主辦) 1994626

語文工作與資訊發展──

從電子文件的發展談對語文研究的期盼

Page 3 of 4

參、電子文件的檢索和處理

雖然電子文件的檢索和處理,目前仍是各行其道,然而由於大量電子文件的出現和許多新的應用如雨後春筍似地冒出來,在文件共享的理念下,造成了整合檢索和處理的大勢。在本節中,我們將從電子文件的檢索問題出發,來棎討這整合的大勢,並將探討語文研究在此中可能扮演的角色。

一、電子文件的檢索環境

1990年前後的電子文件檢索系統的設計製作使用的環境,約略可如圖一所示。由圖中可知,此系統的製作過程中涉及許多專業不同的人員。由於目前絕大多數系統檢索功能的設計都是以詞彙為檢索的鑰匙,例如:文件書目中之欄位、索引典、主題詞表、檢索詞表等均是,這些各行業的人員難免因對詞彙理解不同,使得整個系統成為一個相當複雜的語意情境。因此,由於語意差異而引起的檢索誤差,就成為這種系統效能的上限。比方說:文件分類的錯誤可能是由於編目人員對分類詞彙的認知,與制定圖書分類表的專家,在認知

上不同所引起的。又如:兩個不同的使用者若使用相同的詞彙作檢索時,他們心目中想找的文件卻極可能不相同。根據分析,使用者對於有限範圍的檢索詞表(controlled vocaburary 滿意程度經常在 40% 以下,這不是說該表品質不好,而是使用者對詞彙的理解常與專家不同的緣故。【註八

造成這種情況的原因之一是在設計系統時,考慮不周和引用的知識不夠。到1990年時,通常被用來協助文件檢索的知識約可歸為三類,即是:詞彙上的(morphological),句法上的(syntactical)以及文件結構上的。【註九 句法上的知識在分析句子語法結構的功能上,常用在查詢句的解析,在檢索上則少有這樣的用法。句法的知識用於檢索時,最常用於判別詞彙的分類和解析構詞上的一些問題。文件結構的知識是用來標誌文件構成的元素,例如:篇、章、節、段等,以及標誌版面的訊息,諸如:頁次、欄次、行數等。由此可知,這種系統並沒有真正利用語言學的知識,以了解文件內容的方式來協助作文件檢索。事實上這種系統在設計時有一個相當強烈的假設,那就是:詞彙的意義是和文件的內容是相當一致的。因此,找到文件中含有某種詞彙的這一種形式,即表示找到了含有該內容的文件。這種假設該是多麼粗糙!

另一個設計上的問題是:工程師喜歡用量化的方式來做檢索或擷取方法的設計,但是,卻又不能詳細正確地說明,所用的數學計算在檢索上有什麼實際的意義。筆者贊成用數學方法,但是卻非常不同意在沒能了解其數學算式的實際意義之前,便冒然嚐試。這麼做有許多毛病,首先是這種系統無法明確地告訴使用者,找到的文獻是在什麼樣的情形下找出來;也沒有辦法說明,為什麼還有多少文件找不出來。在這些原因不明情形下,想要改善這種系統自然也就不容易。其次是這樣找出的文獻和文獻後繼的處理工作無法配合,因為文獻處理所需要的文件內容標誌,往往與為這種檢索所做的標誌是兩回事。換言之,也正因為這種檢索方法的設計忽略了對文件內容形式之間的考量,以致於對其檢索中運用之計算無法作使用者可以了解的詮釋。例如:有許多檢索系統在檢索過程中,會經由計算將文件分為若干群聚(clusters),然而卻無法說明此類群聚的特徵和意義,像這種文件的群聚性質是無法用之於後繼文件處理上的。【註十 這類的例子在目前檢索系統中比比皆是。

為了要發展更成熟的文件檢索系統,就必須要克服上述的缺點。克服的辦法無他,只有多運用點能表示文件內容的知識。

二、專業知識之利用

前文已經談過,人文社會學科時常做文件的內容分析(content analysis)或是做文件主題和論點分析的(discourse analysis)。這些知識都是在1990年後發展文件檢索系統時極欲利用的知識。這些知識約可從語言學、心理學或認知科學,以及社會科學的三個角度來考量。【註十一 較之於1990年前引用的知

識,其範圍擴大了許多。從心理或認知的角度來考量時,其思考的方向偏重於文件在計算機中表達的方式。換言之,當一個文件表達於計算機中時,它的結構已不再僅僅是原來的結構了。這是一個文件知識的再建構(reconstruction)問題(請參照前文『分割與合併』一節)。在計算機中再建構的文件,涉及到使用者對文件之認知,也給文件的檢索設下既有的框框或限制,此中涉及的問題正是心理或認知科學方面要探討的要點。

從社會科學的角度來考量時,其重點放在系統涉及之人的因素上,尤其是針對使用者而發展。例如:使用者性別、使用的語言、教育程度、職業等所造成之差異。這兩方面的研究亦涉及語言學,諸如研究中常引用到心理語言學和社會語言學等。從語言學的角度考量此問題時,固然傳統的語言學仍有其發揮的空間,但是涉及應用語言學的份量卻與日俱增。例如:對寫作學、文獻學等知識的應用已日益受到重視。

這些從不同專業角度出發,把文件內容知識的詮釋表達在計算機中時,不僅對該專業處理文件甚有用處,也提供了嶄新的檢索機制。同時,這種做法可以使文件相關之知識,在計算機中是既可用之於檢索,又可用之於該專業對文件之進一步處理。換言之,這種做法把文件檢索的系統的功能擴大了,使檢索和文獻處理合而為一。這正是未來檢索系統發展的大勢所趨。

三、標誌的應用

在『內容與形式』一節裡,我們已經談到,標誌工具是將文件知識的內容和在文件中文字表達的形式之間,連繫映射關係的工具。現在,讓我們來說明如何運用標誌工具,將內容形式在計算機中連繫在一起。【註十二

要言之,工作的步驟如下:

  1. 將欲利用的專業知識有系統地整理出它的形式
  2. 找出計算機中相對應的抽象知識結構。
  3. 將1中之知識以2之結構形式表達在計算機中,成為此專業之通類知識generic knowledge),可長久儲存備用。

以上三個步驟是將專業知識建於計算機中。當我們要分析文件的內容時,便可隨下列步驟用標誌的方式來完成。

  1. 取出機讀文件檔案,並讀出欲利用之專業通類知識結構。
  2. 用標誌工具,將文件中的相關文字和通類知識的對應項目連繫起來。
  3. 重複5,直至所有欲標誌者做完為止。 

通常在設計電子文件的檢索系統時,應考慮儘量用通類知識,這是希望所設計的系統能夠通用於某一類專業文獻的緣故。如果所用的知識太狹隘,譬如取之於某一本書中特有的知識,那麼所作的軟體就很可能就只能適用於這一本書而無法用之於其他的文件。目前,這種「只能用於某文件的軟體」的例子不是沒有,而是很多,實應引以為戒,不足以取。通類知識的例子很多,例如:圖書分類表索引典字書等等。

在人工智慧領域中,常將知識的結構形式用數學或邏輯的方式來表達,以便計算機能處理之。在此我們簡稱之為抽象知識結構,例如:樹 ( tree ),紀錄( record),網(graphnet)及推理規則( inference rules )均是。在各專業中,對文件內容的知識,若能以抽象知識結構來表達,那麼計算機就可以處理與這知識相關的事務。如何將我們習以為常,在文件中隱而不顯的知識用抽象知識結構表達,的確是不太容易做的事。通常,體例的蒐集和整理是解決此問題的一個好方法。例如:俞樾在《古書疑義舉例》中將校書之經驗歸納出37條,可稱為通例,此即是表列式通類知識,將之納入計算機中並非難事。

在上述的工作程序中,涉及語文的問題很多,例如:體例之整理就涉及句法及語意問題。又如:詞彙在不同專業領域中有語意之同異問題。凡此種種均待語言學家之努力。

今年四月,筆者曾將本節中所述之方法用於處理佛經中不同版本問題,欲觀此例者,請洽筆者。【註十三】 

四、寫作與檢索的整合

為了檢索文件的內容,我們希望把與文件內容相關的知識儘量整理出來利用。這些知識中許多是和寫作有關的,諸如在寫作時可能用到的大綱、細目、體裁、修辭、乃至於文章結構學和寫作學等等。美國的科技傳播學會Society for Technical Communication)在1992年起就鼓勵會員用能作 SGML 標誌的文書軟體來寫作。其實,依文章的內容作檢索的這件事正好是寫作的反向程序,因此,寫作與檢索之間可以共用的知識甚多。如果設計寫作軟體工具(authoring tool)時,能同時考慮到日後文章檢索的需要,那麼對雙方都會有益。

可惜的是目前寫作軟體還不太成熟,所能做的事大部份都是協助作者編輯文句( editing )而已,真正和寫作相關的知識少得可憐,更不用說考慮到檢索之需了。但是,我們深信兩者相合是必然的趨勢,也是今日應該重視的方向。語文與寫作的關係密不可分,這個方向正是語言學可大力著手處,詳細關係實不須細說。

值得注意的倒是 TEI 計劃所付出的努力。 TEI Text Encoding Initiative 的簡稱,其意為文章編碼先鋒,它是計算機與人文協會(ACH, The Association for Computers and Humanities )計算語言學協會 ( ACL, The Association for Compu- tational Linquistics)文學與語言計算協會 ( ALLC, The Association for Literary and Linquistic Computing) 等三大組織聯合全球力量推動的計劃,迄今已有六年多了。在1990年,TEI 就發表了第一版的《電子文章編碼和交換規則》(Guidelines for Electromic Text Encoding and Interchange 亦簡稱 TEI)。1992年起,此文件的第二版文稿,TEI P2,就放在 INTERNET 網路上,由作者們共同寫作,隨時更新。這是一種新型聯合寫作的方式,文稿是動態的,隨時可能會添新資料;讀者也不必等到完稿、排版、印刷之後才能看到文件,而是隨時可上網路瀏覽已發表的部份文稿。

TEI P2 的主要工作是根據 SGML 標準,對各種文章體裁的結構和內容作標誌。其目的是促成電子文件的應用和共享,其應用中當然包括了文章寫作、檢索、排版...等等。1993年9月20日時,TEI P2 的工作內容如表一所示。由其中可知,像詩歌、散文、劇本、字典、信札等等都已是TEI 既定的工作標的。相信 TEI 計劃的推展,對於整合文獻的寫作、檢索和處理有極重要的意義。


 【註八William Saffady,《Text Storage and Retrieval SystemsMackler, 1989

 【註九Gerard Salton, Automatic Text ProcessingAddison-Wesley, 1989

 【註十Faxli Can & Esen A. Ozkarahan, Computation of Term/Document Discrimination Values by Use of the Cover Coefficient Concept, J. ASIS Vol.38, No.3, 1987, pp 171-183

註十一】此處的這三個角度,是依據【註五】中的說法。事實上這種考量的角度是可再議的。譬如,它貶低了寫作學和文獻學等的影響。

註十二】此處所指的標誌,是依據國際標準,〈ISO 8879, Standard Generalized Markup LanguageSGML〉,1986年中所訂定者。此外TEI P2(如下文),以及 HTML Hyper Text Markup Language,在 Internet Gopher 上即可找到),亦值得參考。

註十三 謝清俊、陳昭珍、莊德明、周亞民〈電子佛典中處理版本的方法〉,中央研究院資訊所,1994年4月


Page 3 of 4
上一頁

論文目錄

下一頁

文獻處理實驗室