文獻處理實驗室 專案計畫

行政院科技顧問組 委辦研究計劃 1998年2月

第十二章 可攜式文獻與中文資訊的共享

Page 2 of 3

貳、內容標示的考量

精通中文的學者可能因為學術研究的需要而希望利用電腦對內容作全文檢索或再利用(reuse)。對這類使用者而言,電腦能夠自動處理內容比原貌重現給人看更重要。因此應把內容格式和版面格式完全分開以利交換,內容也要加以適當的標示以利電腦處理及多元應用。

目前最受注目的文件標示語言應數Extensible Markup Language (XML),它可以說是取SGML之長,補HTML之短,從1996年底草案推出,短短一年已席捲全球,相關支援工具軟體如雨後春筍般的出現,連微軟公司都準備在Internet Explorer 4.0版掛上(plug-in) XML文件的呈現器。

供電腦處理的內容若以XML標準來表達,則接收端祇要有XML剖析器且知道標示用的標籤語意(semantics),就可以交給各種應用程式使用。

XML的制訂者已考慮到InternetWWW上的高效率文件交換,也兼顧了文件版面呈現,因為他們用XML定義了一個名為XSL (XML Style Language)的版面描述語言。如果在傳遞內容時也把它的版面資訊以XSL表達,一併送給對方,則接收端也可以將內容做某種逼真程度的呈現。

不過使用XML於中文內容時必須注意以下幾點:

  • 每一類文件都需要一個文件類別定義(Document Type Definition, DTD),以利標示文件內容。
  • 每一類文件都需要一個版面描述(style sheet),以利版面呈現。
  • 雖然XML的宣告語法可以選擇多國語言,但那祇是一個雙字元(double byte)的交換碼架構,對中文而言並不完備,尤其是中文常遇到的缺字問題根本沒有談到。
  • 在文件製作、存取、交換和處理的過程中,必須用到許多中文化的軟體工具,如符合XML規格的editorparserpackerunpackerdocument repositorysearch engineapplication software等。

Page 2 of 3
上一頁

回目錄

下一頁

文獻處理實驗室