文獻處理實驗室 論文目錄

當前語文問題學術研討會 (國立台灣大學文學院主辦) 1994626

語文工作與資訊發展──

從電子文件的發展談對語文研究的期盼

Page 2 of 4

貳、電子文件的性質

一、文件的現代風貌

電子文件最明顯的特色是易於複製,它幾乎可算是不消耗資源、亦無污染的生產行為。於是,文件被製成電子形式後,似乎變成了「取之不盡,用之不竭」的資源:不僅可供自愉悅,亦堪持贈君。這是因為以複製品贈人後自已並無損失的緣故。

復次,透過電腦網路,電子文件可以高速傳輸,無遠弗近轉瞬即至。如果把文件比作貨物(例:書報、雜誌),那麼電子文件透過網路的運輸就像是不花錢又不花時間而能迅速、確實送達目的地的方法。 

由於電子文件有這兩個史無前例的特點,再加上它體積小,重量輕,可長久保存等等有利的性質,使得電子媒體賦于文件嶄新的活力,讓文件能活出現代風貌,並提供徹底改變知識分配和擴散形態的能力,以及開啟真正人人平等共享知識環境的契機。

當然,要達到上述的境界,一些基本的建設是必須的,像是四通八達高容量和高速度的電腦網路,以及無所不在的終端設備(如:個人電腦)等。正因為這個緣故,世界各國莫不競相開始建設「國家的基本資訊設施」(National Information Infrastructure NII ),我國亦然。這些基本設施的建設均由國家統籌規劃,相信明天會比今日更好。而事實上,國內的學術網路目前已經可以做很多事了,所以在此暫且不討論這個以工程為主的問題。【註二 

二、內容與形式

借用傳播學的觀點,文件 (document )是作者把他想傳遞的概念 (concept )用語言文字表達。文件的內容content )即指作者將抽象欲傳遞的概念,讓讀者透過文字去瞭解,這也是電子文件應設法能夠處理的。【註三】 語言文字只是表達這抽象概念的媒介,文件則是此概念映射在媒體上的形式(form)。於是,欲了解文件的內容,必須經過以此形式來詮釋其內容的過程。然而這個詮釋的過程計算機並不會做,這是因為計算機本質上只是一個能處理形式的設備而已,對於抽象的內容而言,它是無能為力。於是,如何設法使計算機能夠盡可能輾轉地處理電子文件的內容,就成為今日研究發展的主要課題。

要解決上述的問題,最好的途徑是儘量找出文件的內容形式之間的對應關係,此關係若能以形式表達出來,那麼計算機就可以用處理形式的方式間接地來處理內容了。

在人文社會的研究領域中,對於文件內容的研究一直是一個主要的課題,且其中不乏量化的形式可供計算機直接處理,然而也有許許多多頗有系統的研究成果,並沒有能夠表達為計算機能夠處理的形式,這也許是以往的研究成果主要是給人用的而不是給機器處理的緣故吧!在對文件內容的研究方面,語言學的方法是不可或缺的,這正是語言學的研究對電子文件的發展最能立見成效的著力之處。

一旦文件中一些形式內容的映射關係釐清了,在電子文件中常常將此映射關係用標誌(markup 的形式表達在計算機中。換言之,電子文件目前已經有標誌這種有效的工具,來表達文件內容形式之間的映射關係了。如果想要用計算機處理文件,了解標誌工具是必要的步驟。 

了解電子文件的內容形式之辨,就能知道計算機能為電子文件做些什麼事。由此我們也可知道怎麼樣改變原有研究習性,然後可以配合電子文件的性質,進而利用資訊技術來配合我們的工作。 

三、分割與合併

文件在計算機中通常會被分割,形成一些適用於計算機處理的大小單元。【註四】 雖然電子文件還保留原件的結構和版面關係,然而經此切割卻衍生出電子文件的特殊結構生態。

首先,這些單元之間的關係不再僅限於傳統文件中的線性關係。在計算機中,這些單元很容易就產生多度空間狀的立體關係。從好的方面說,這些立體關係可以突破傳統的限制,更深刻地表達一些文件的內容,例如:可連接各單元間相關的內容構成超文件,以利使用者檢索、分析及學習;甚至可構成特殊的知識結構和認知網路作更多的用途。【註五

然而,從不好的方面說,有兩個明顯的後遺症:其一、分割後的單元,就其內容而言很可能會失去一些資料,而不再是原先渾然一體的文件所表達的內容,這是由於內容之於形式的本性所引發的;其二、當各單元重新組合而不依照原來關係的次序呈現時,可能會產生些新的內容,而這些內容卻不一定是應該有的。換言之,可能產生一些雜訊干撓、甚至於錯誤的信息。這些問題亦可視為文件中前後文(context)重新排列所造成的後果。若將許多文件置於一處,則各文件單元間彼此的干撓就會更明顯。【註六

舉例來看,當文件以單元方式呈現時,代名詞或者是具有代名詞作用的詞彙,就可能產生不知所指或是誤指的理解。又如,即使是討論同樣主題的兩個單元,若原來的兩個文件寫作方式或理念不同,當它們放在前後相互參照時,可能會產生可笑的後果。這種情形在多媒體的情境下情況較為嚴重,這是因為各種媒體製作和詮釋的方式有明顯差異的緣故。

要解決本節所談電子文件分割與合併所帶來的問題,從語文學下手是必須的途徑。事實上,這些現象已影響到文件的寫作,也許電子文件的確須要比傳統更複雜的寫作技巧來忠實地維持電子文件的內容,而綜合認知心理學、傳播學(包括廣告學)和語言學的新寫作學似乎是一條解決的道路。

四、知識的增益

資料的匯集往往可導致新知的發現。例如:兩個沒有機密的普通文件湊在一起,就有可能產生機密的信息。計算機是匯集和整理資料的能手,文件若是轉換為電子形式,即可利用計算機來匯集和整理。事實上,經資料匯集整理而導致的新知並不僅限於發現一些現象而已,經常會導致新的理論和新的模式的產生。計算語言學之於語言學就是一個好例子,類似的例子還有許多,像是:計算物理學,或甚至如計算科學 (computational science ) 這樣的通稱。【註七

如果從文件可能涵蓋的知識內容來看,幾乎可以包容所有的學科。當這些文件匯集在相同的資訊設備架構下時,無形中縮短了彼此的距離,他們不僅使用相同的檢索語言操作程序機器設備,且相互提供了較以往更方便的擷取環境access) ,更有甚者,在此環境下更易於建立彼此相關參照的關係。所以說這是在人文與科學久分之後,出現最可能使彼此將鴻溝消除的徵兆。

其實,電子文件本身就是人文和科技合作的產物。電子文件的處理必須有語言學的基礎也就是一種人文和科學的結合。日後電子文件普遍的使用下,語言學勢必將受重視,用以協助解決各行業間的資料匯集、整理和溝通等問題。


 【註二】自從美國副總統高爾提出 NII 計劃以來,各國爭相仿效,相關文件隨時可見,在 internet 上即可取得全部計劃之文件。在我國,行政院科技顧問組亦於今年六月十四日向行政院提出初步規劃草案,並將此議題列入今年科技顧問會議中討論。

 【註三】此處之概念一詞是相當廣義的,凡是人的知覺意識能知之者均屬之。在人工智慧系統中,籠統地說,亦有泛稱之為知識者。

 【註四Gerard Salton, James Allan, Chris Buckley, Amit Singhal, Automatic Analysis, Theme Generation, and Summarization of Machine- Readable Texts, Science Vol.264, June 1994, pp 1431-1426

 【註五Douglas C. Smith & Sandra J. Nelson, Hypertext, an emerging and important medium of business and technical communication, Journal of Business and Technical Communication, vol.8, No.2, April 1994, pp 231-243

 【註六Geoffrey A. Cross, Recontextualizing Writing, roles of written texts in multiple media communications, Journal of Business and Technical Communication, Vol.8, No.2, April 1994, pp 212-230

 【註七Computational Science 一詞最早由諾貝爾獎得主 Ken Wilson 使用,意指一切以計算機為主要研究工具的學門。另可參考:Abmed Sameb & John Riganati,〈Computational Science and Engineering Computer, October 1993. pp 8-12


Page 2 of 4
上一頁

論文目錄

下一頁

文獻處理實驗室