文獻處理實驗室 專案計畫

行政院國家科學委員會研究計畫案 1999年11月8日

PART VI 附錄

Page 1 of 4

附錄一 Metadata初探

陳亞寧陳淑君

一、前言

    「數位典藏」、「數位圖書館」或是「數位博物館」,不論名詞如何翻譯、引用或解釋,資訊數位化及服務數位化已是大勢所趨。為了一探並落實數位圖書館/博物館計畫(digital library and museum)內涵,國科會已成立推動數位圖書館與博物館研究計畫,而中央研究院(以下簡稱本院)亦是其中之一。為了支援本院數位圖書館與博物館研究計畫(以下簡稱DLM)的物件描述與詮釋,而成立了Metadata工作小組負責規劃DLM有關Metadata的事宜。本院Metadata工作小組係自民國八十七年六月廿八日成立以來,已針對現行Metadata相關標準及研究計畫進行瞭解,同時工作進度已邁入第二階段。Metadata工作小組將陸續把工作相關的成果依順整理、發表,而本文即為小組第一次正式對外發表有關Metadata的研究成果與心得。

二、Metadata定義及範疇與實質涵意

有關Metadata的定義、範圍及實質內容方面,已有許多相關文獻提出探討,本文依序分為定義、Metadata與資料的異同、範疇與實質涵意分述如下。

1、定義

有關Metadata的定義一般泛稱為「資料的資料」(data about data)【註一】,此一定義係源自在一九九五年三月由OCLC(Online Computer Library Center)、NCSA(National Center for Supercomputing Applications)兩單位共同主辦名為「Metadata Workshop」研討會,廣邀圖書館學、電腦科學、文獻編碼,以及相關領域學者專家等參加。在此會議中,提出了「資料的資料」作為Metadata的定義【註二】。自此之後,有關Metadata的各種定義亦紛紛出現,試列舉如下:

  • 描述資源屬性的資料(Data which describes attributes of resources.)【註三】
  • 有關資料背景與關聯性、資料內涵以及資料控制等相關資訊(Information about the context of data and the content of data and the control of or over data.)【註四】
  • Metadata是一種有關全球資訊網資源或其他的機讀資訊(Metadata is machine understandable information about web resources or other things.)【註五】
  • Metadata就是資料(Metadata is data.)【註六】
  • Metadata是包括有關資料特性的資訊,但是Metadata必須對資料加以描述、詮釋,本質上應該涵蓋:人、物、時、地、原因及途徑等向面(Metadata consist of information that characterizes data. Metadata are used to provide documentation for data products. In essence, Metadata answer who, what, when, where, why, and how about every facet of the data that are being documented.)【註七】

2、Metadata與資料的異同

究竟Metadata與「資料(data)」是否有所不同呢?若從定義而言,Metadata似乎應包含了資料,其實不然。若從W3C(World Wide Web Consortium)提出的「資源描述架構」(resource description framework,RDF)中的解釋即可印證發現兩者間並無不同,如下:

資料與Metadata間並無明顯絕對性的差異,因為兩者常同時被用來詮釋同一資源。若有分別,也只是在特定的應用層面而已。(The distinction between "data" and "Metadata" is not an absolute one; it is a distinction created primarily by a particularly application, and many times the same resource will be interpreted in both ways simultaneously.)【註八】

因而,也可以推論Metadata與「資料」間似乎存有著某種關聯性或互動關係,而且彼此間的關係並不十分明確。所以針對此點,關於Metadata方面也有文獻提出不同的定義與解釋,如:

  • Metadata與資料並無差異(There is no essential distinction between data and Metadata.)【註九】
  • Metadata可以用來描述Metadata(Metadata can describe Metadata.)【註十】
  • Metadata與資料在行為及特性方面具有某種程度的雷同性(Metadata and data have similar behaviors and characteristics.)【註十一】
  • Metadata可以用以描述某一文獻,或是在文獻中的文獻,或是不同文獻間等關係(Metadata about one document can occur within the document, or within a separate document, or it may be transferred accompanying the document.)【註十二】
  • 有關Metadata間的關係並不單純(There is no single "about" relationship.)【註十三】
  • Metadata可以指引至某一具有統一辨識碼的資源(Metadata may refer to any resource which has a URI.)【註十四】
  • Metadata可以儲存在任一種資源(Metadata may be stored in any resource no matter to which resource it refers.)【註十五】

從以上定義的探討,可以歸納出兩種結論:一為,Metadata就是資料,二則Metadata與資料間存在某種互動關係,而且屬性不是單一、簡單化的。

3、範疇與實質涵義

究竟Metadata實際範圍與涵義包括了何種特性與項目呢?若從一九九七年九月十六及十七兩日在美國馬里蘭舉辦的第二屆IEEE Metadata會議議題中可窺見一二,如下:【註十六】

  • Metadata的管理
  • Metadata的模式及呈現:在Metadata延展性的模式選擇方面之衝擊、Metadata在儲存、檢索及資料使用上的衝擊、Metadata在WWW中的架構邏輯/內容語意之呈現
  • Metadata的發掘/萃取
  • Metadata 的大量儲存及倉儲(warehousing)
  • 整合多層次的Metadata
  • Metadata貯藏之處所
  • 管理Metadata的系統:記錄/提供/檢索/使用、以WWW為架構基礎的Metadata管理
  • Metadata在特定領域的應用
  • 地球科學:如氣象、生態系統等
  • 資源管理:如採礦、農業等
  • 資料密集性高的其他應用領域:人口統計、影片檔案等
  • 全球資訊基礎建設中之相關應用
  • 數位圖書館Metadata之議題:多媒體文獻的檢索、多媒體及異質性數位資料之Metadata、Metadata之大量儲存
  • 以WWW為架構管理的資訊資源之Metadata
  • 資訊/電子商業
  • 標準
  • "政府文獻":如電子郵件、聲音郵件
  • 磁帶格式及檔案的Metadata
  • 自行描述資料的格式:如netcdf
  • 現有標準的調查
  • 進行不同Metadata間標準的轉換

●實際運作中與Metadata相關之議題

即使將於一九九九年四月份舉行的第三屆會議,亦可發現議題的內容大同小異,如下【註十七】:

  • Metadata的
  • 管理與模式
  • 在WWW上的語意表達
  • 大量儲存及倉儲
  • WWW模式資訊資源的管理
  • Metadata發掘與萃取
  • Metadata目錄
  • Metadata管理系統
  • Metadata特殊應用
  • Metadata在數位圖書館的議題
  • Metadata有效發展的方式
  • 標準

至於真正的Metadata內容究竟為何呢?其實圖書館長久以來建立、維護與提供的線上公共目錄的書目資訊即是其中一個典型範例,至於Metadata的應用層面也可以從本文列舉的範例窺知梗概(如表一所示)。但是Metadata範疇只限於此?其實依據本院Metadata工作小組研究與實作心得證實Metadata除了在於描述與詮釋資料與書目資訊相同外,但在層次與深度方面與傳統書目資訊是有所不同的。主要差異有四個方面:一為任何物件(object)皆是Metadata涵蓋的範圍,諸如圖書館界所熟悉的書、期刊、文章等,乃至器物、人等皆是。二則,範圍從實體典藏的物件擴大至虛擬典藏的各類物件。三是,詮釋的深度遠比以往更為深入,並不僅限於內容主題的分析標引而已,尚包括了物件彼此互動關係,包括人、時、地、物、主題/事件(events)等五大主軸間的互動、牽引;換言之,從資料、資訊的整理提昇至知識內涵的建構。四為,物件的辨識、保存、展示、取用、篩選與評估、服務及系統管理等方面皆是環環相扣,密不可分,並不可從單一觀點視之或處理。

三、Metadata的重要性與功能

究竟Metadata對於數位圖書館有何重要性呢?難道沒有了Metadata,數位圖書館就無法順利建置完成?堅信前述兩個問應該是許多人好奇,或是想一探真實的熱門話題。如果追溯Metadata一詞的起源,其實是來自網路資源的失控,亦即網路用者無法適當地找出所需的資訊。即使Metadata起源於此,卻可以明確發現Metadata的應用早已超越此一範疇,已延伸至圖書館等不同資料單位既有館藏資源、紙本或其他傳統形式媒體轉為數位形式,以及斬新的電子資訊等三大領域。因而,數位圖書館範圍也隨之擴展,而Metadata也成為數位圖書館的必備基礎,因為不可能將所有物件內涵全文予以查詢、檢索,成本效益畢竟不高,而且資源有限。

依據Heery Rachel觀察分析目前網路資源的無序特性,提出了下列六大發現:資料分散放置各處(locations)、相同資料擁有不同版本(document versions)、資料存放位置易於改變(lack of stability)、重覆過時的資料充斥於網路上(redundant data)、資料索引的層次不夠深入與重覆索引的問題(granularity),以及缺乏相關資源的檢索說明(nature of location data)等。因而,在荷蘭的DESIRE(Development of a European Service for Information on Research and Education)研究計畫中,就提出Metadata應具備下列五大功能:位置標示指引(location)、尋找或發掘(discovery)、歷史回溯追蹤(documentation)、評鑑(evaluation)及篩選過濾(selection)等【註十八】。若依本院Metadata工作小組研究實證結果,其實Metadata應具備下列八項功能:

  1. 資料架構與模式(structure & model):設計一個共通性組織結構,以容納不同類型與學科領域的Metadata。
  2. 資料輸入與描述整理(input & descriptive organization):為典藏品資料建立一套詮釋性的記錄。
  3. 檢索與索引(retrieval & indexing):讓使用者很有效率地進行查詢這些記錄。
  4. 展現與辨識(representation & identification):從查得的記錄中,使用者可以清楚的獲得所需的訊息及制定呈現方式。
  5. 串聯與互動關係(linkage and interactive relationship management):建立不同文獻間的串聯架構、方向(雙向與多向)、模式與管理等。
  6. 取用與認證(access & authentication):作為系統安全控制的機置功能之一,以區別不同身份的使用者,包含智財權(intellectual property rights)的管理與控制。
  7. 交換與儲存(interchange, mapping & exchange and storage):這些詮釋性記錄可以因各種不同需求(包括書目與全文兩部份)而進行交換及儲存。
  8. 整合XML(extensible markup language)、RDF與Z39•50不同協定的應用:除了致力於Metadata的制定,因應文獻結構的制定、交換、檢索與展現的需求,另結合XML、RDF與Z39•50等協定的應用,以發揮Metadata的功能。【註十九】

四、全球Metadata發展現況與研究計畫

目前至少已有20種以上屬國際標準或逐漸形成標準的Metadata格式存在於各學科領域,Lorcan Dempsey等人曾依Metadata格式的繁簡度及特質概分為三大群組:【註二十】

1、第一組:簡單格式(simple formats)

此類多是由某公司獨家製造與專屬。係全文式索引網路資源(例如:Lycos、Altavista、Yahoo等),通常由機器自動擷取資源後直接索引並提供檢索。

2、第二組 結構化格式(structured formats)

此類係正在標準化中的格式,以欄位為架構來索引相關資源。例如,Dublin Core、IAFA templates、RFC1807、SOIF、LDIF等。它們所含括的描述資料基本上足以讓使用者找出有興趣之相關資源。這類型格式以簡單的設計為原則,未受專門訓練的資料提供者也能容易上手建立Metadata記錄。但是相對地,格式的設計上較缺乏物件或資源間不同層次的關聯性功能。

3、第三組:複雜格式(rich formats)

此類為已符合國際標準的格式,以詳細的標誌(elaborate tagging)來呈現資源的內涵。例如:ICPSR(Inter-university Consortium for Political and Social Research)、CIMI(Computer Interchange of Museum Information)、EAD(Encoding Archival Description)、TEI(Text Encoding Initiative)、MARC等。這類型的格式通常需由研究學者或具專門知識者來描述資源的內涵。

在國內,臺大陳雪華教授將Metadata依主題歸納為八大類【註廿一】:

1、早已普遍使用的格式

◎ MARC:如USMARC, UKMARC, UNIMARC
◎ PICA+(the Dutch Centre for Library Automation)

2、描述科技文獻

◎ BibTeX
◎ EELS(The Edinburgh Engineering Virtual Library)
◎ RFC1807

3、描述人文及社會科學資源

◎ ICPSR

SGML Codebook Initiative

◎ TEI Headers

4、描述政府資訊

◎ GILS (Government Information Locator Service)

5、描述地理空間性資源

◎ FGDC (Federal Geographic Data Committee)

6、描述博物館藏品與檔案特藏

◎ CDWA(Categories for the Description of Works of art)
◎ CIMI
◎ EAD

7、描述大量網路資源

◎ Dublin Core(Dublin Metadata Core Element Set)
◎ IAFA/WHOIS++ Templates(Internet Anonymous FTP Archive)
◎ LDIF(LDAP Data Interchange format)
◎ SOIF(Summary Object Interchange Format)
◎ URCs(Uniform Resource Characteristics/Citations)

8、其他

◎ Warwick Framework

Metadata相關研究計畫及參考資源可由下述UKOLN(The UK Office for Library and Information Networking)及IFLA(International Federation of Library Associations)兩個機構的所提供的Metadata網站獲得相當完整而集中的訊息:

1、UKOLN Metadata page (http://www.ukoln.ac.uk/Metadata/)

此網站係由『英國圖書館與資訊網路辦公室』(即UKOLN)所維護,網站資源包括該辦公室參與的七大資源描述相關之計畫介紹,如:BIBLINK(Linking Publishers and National Bibliographic Services)、DESIRE、ROADS(Resource Organisation and Discovery in Subject-based Services)等。除外,尚提供豐富的UKOLN相關研究報告、各式Metadata的網站、相關配合標準(如:CORBA、MIME、Unicode、SGML、XML、Unique Identifiers)、不同Metadata格式間的對照表、處理Metadata的相關軟體工具、相關詞彙清單等等。

2、The IFLA Metadata Resources page (http://ifla.inist.fr/II/Metadata.htm)

由國際圖書館學會聯盟所維護的Metadata資源網頁也提供非常齊全而完整的相關資訊,包括各式Mtadata格式的相關探討文獻,以及相關會議和研討會的訊息。

五、Metadata評估準則要項

現存已有許多Metadata標準,如何選擇與評鑑一套適用的Metadata格式就顯得十分重要。本節試從探討有關Metadata評估要點,作為圖書館事前選用適合的Metadata,以及使用後的評鑑。茲分為下列要點說明:【註廿二】

1、使用環境(environment of use)

Metadata格式的使用環境可從下述三方面著手評析:

1-1 使用群(constituency of use)

誰是此Metadata格式的主要使用群? 他們是否屬於某一特別專業領域或學科範圍?例如:USMARC被普遍使用於美、加及澳大利亞等國家的圖書館界;而EAD則是為了檔案及手稿方面的文件利用而發展。瞭解使用群的特性有助於初步判斷該Metadata格式的適用性,並可探索這些使用單位的應用情況及發展趨勢。

1-2 建立資料的容易度(ease of creation)

資料提供者(如: 學科專家)是否容易自行建檔?抑或需賴資訊服務提供者(如: 圖書館員)代為協助建檔?例如:FGDC標準為一擁有超過300項(Dublin Core只有15項)資料欄位的複雜型Metadata,因此必須再另外開發許多工具以協助建檔,同時該標準的工作小組也需要支援相關的教育訓練課程。

1-3 國際標準化的程度(progress towards international standardization)

雖然有許多的標準制訂機構近年來積極地發展Metadata相關標準與機制,但目前為止尚未誕生任何一種已完全符合國際標準的Metadata,即便是USMARC中有關網路資源的著錄欄位也仍屬討論、研議階段。瞭解不同Metadata格式的國際標準之進展,有助研判該Metadata的成熟度,以及未來繼續發展的可行性。

2、格式相關議題(format issue)

評估Metadata格式可從內容要項、描述項目的建構規則、多語言的處理能力、顯示物件間關聯性的能力、完整性等五方面加以探討如下:

2-1 內容要項(content)

為讓Metadata的功能充分發揮,原則上Metadata記錄的內容要項應該包含:

◎基本描述項目

意指對物件本身書目性的描述,例如:物件的題名、作者、日期、出版者、提供者、地理位置、形式、實體描述等。

◎主題描述

對物件的本質作更深入的記載,例如:事件(event)、主題、關鍵詞、材質等。

◎統一化資源識別碼

物件編號包括ISBN/ISSN、URL、URN、或任何該物件獨一的編號,以資識別於其他文件。

◎資源格式及技術性的特質

常見的電子檔包括html、pdf、postsript、powerpoint、rtf、latex、gif、jpeg、plain text、sgml等不同格式,這些不同的檔案格式會有相對應的解讀軟體。

◎系統及使用權管理細節

包括控制權限的管理(如:login in、password、IP、domain name)、使用說明(如:是否有任何時間、地域以及身份限制),URL及URN等考量細節。

◎行政管理之記錄

含括記錄類型、建檔者/日期、審核者/日期、最新審核日期、最新更新者/日期、修改歷史檔等相關訊息。

◎來源出處

物件來源出處的記載。

2-2 描述項目的建構規則(rules for the construction of these elements)

建立Metadata時,是否提供任何可以遵循的規則?例如:MARC的描述欄位規定須嚴格地依照英美編目規則(AACR2)來著錄,相對地此套規則也深深影響到該格式描述項目結構。

2-3 多語言的處理能力(multi-lingual issues)

描述或使用其他語言的相關標準及機制是否已被考量?例如:GILS的資料著錄項包含資料的語言(language of resource)以及記錄本身的語言(language of record)等指示多語言的相關欄位。

2-4 顯示物件間關聯性的能力(ability to represent relationships between objects)

不同內容的物件之間容許呈現多種層次的關聯性描述,例如:參照(references)、發源(based on)、版本(version of)、型式(format of)、母子(part of)等等多種可能的關聯性。

2-5 完整性(fullness)

Metadata設計的原旨會影響其內容的完整性,例如:原來的Dublin Core完整性並不高(12個資料項),經過六次的研討會議以及相關單位的實作後,決定朝向較詳盡及完整記錄的方向修正(增為15個資料項,並且開始研議如何藉由修飾詞等機制進一步地詮釋及精緻化記載、標引的內容)。

3、網際網路相關之協定(protocol issues)

目前一些資源發掘(discovery)系統可經由網路上的分散式檢索及目錄(如:whois++、LDAP、Dienst)等方式達成探索功能。另一方面,越來越多完整性高的系統(如:MARC、CIMI、TEI、EAD等)開始採用Z39.50來進行檢索。

4、實施應用的狀況(implementation)

從各Metadata相關的應用計劃可觀察到此格式的優勢與不足之處,同時可得悉此格式發展趨勢,甚至可與相關單位互相觀摩。

六、結語

從網路資源失控為發端的Metadata,發展、應用範圍早已跳脫既有形式。因而,Metadata應用層面也從書目層次擴展至全文,乃至知識內涵與建構。在應用Metadata前,除了必須對其定義及範圍加以釐清外,如何選擇與評估亦十分重要,三者缺一不可。未來Metadata如何應用發展,且讓我們拭目以待。

附註:

註一: Stuart Weibel, Jean Godby, and Eric Miller, "OCLC/NCSA Metadata Workshop Report,".[Access Date:25 December, 1997].
http://www.oclc.org/oclc/research/conferences/Metadata/dublin_core_report.html
註 二: 同註一。
註 三:

Lorcan Dempsey, et al., Specification for Resource Description Methods.
Part 1. A Review of Metadata:a survey of current resource description formats. Version 1.0. 19 March, 1997. [Access Date:24 May, 1997].
http://www.ukoln.ac.uk/Metadata/DESIRE/overview directory.

註 四:

Alison Chilvers, and John Feather, "The Management of Digital Data:a Metadata approach," The Electronic Library 16(6)(1998):365.

註 五:

Tim Bernes-Lee, "Metadata Architecture," January 1997. [Access Date:7 Decemember, 1997].
http://www.w3.org/DesignIssues/Metadata

註 六: 同註五。
註 七:

"Tools for Creation of Formal Metadata:frequently-asked questions on FGDC Metadata," 20 July, 1998. [Access Date:29 August, 1998].
http://geology.usgs.gov/tools/Metadata/tools/doc/faq.html

註 八:

"Resource Description Framework (RDF) Model and Syntax Specification," W3C Working Draft, 8 October, 1998. [Access Date:25 November, 1998].
http://www.w3.org/TR/WD-rdf-syntax

註 九:

Ron Daniel, and Carl Loagoze, "From Metadata containers to active digital objects," D-Lib Magazine Novemember 1997. [Access Date:18 November, 1997].
http://www.dlib.org/dlib/november97/daniel/11daniel.html

註 十: 同註五。
註十一:

Carl Loagze, Clifford A. Lynch, and Ron Daniel, "The Warwick Framework:a container architecture for aggregating sets of Metadata,"[Access Date:20 August, 1998].
http://www.ifla.org/documents/libraries/cataloging/Metadata/tr961593.pdf

註十二: 同註五。
註十三: 同註九。
註十四: 同註五。
註十五: 同註五。
註十六:

" Second IEEE Metadata Conference:call for papers," [Access Date:24 Februray, 1999].
http://www.llnl.org/liv_comp/Metadata/metad97.CFP.html

註十七:

"Third IEEE Metadata Conferfence," [Access Date:24 Februray, 1999].
http://www.llnl.org/liv_comp/Metadata/md99/md99.html

註十八: 同註三。
註十九:

中央研究院Metadata工作小組,「Metadata工作小組第一階段報告:以平埔族計畫實作為例」,民國八十八年一月七日。

註二十: 同註三。
註廿一:

陳雪華, "網路資源組織與Metadata之發展", 圖書館學刊, 12(民86):19-37。

註廿二:

本節係綜合三份文獻而成,請參見下列資料:

Rachel Heery, "Review of Metadata Fromats," Program 30(4)(October 1996):pp. 345-373. [Access Date:25 February, 1999].
http://www.ukoln.ac.uk/Metadata/review.html

Lorcan Dempsey, et al., Specification for Resource Description Methods.
Part 1. A Review of Metadata:a survey of current resource description formats. Version 1.0. 19 March, 1997. [Access Date:24 May, 1997].
http://www.ukoln.ac.uk/Metadata/DESIRE/overview directory.

中央研究院Metadata工作小組,「Metadata工作小組第一階段報告:以平埔族計畫實作為例」,民國八十八年一月七日。

 

MetaData Input Format

MetaData Representation & Retrieval Format

MetaData Storage & Exchange Format

作者(r)

書名(r)

版本

出版項:出版地、出版者、出版年月日

附註(r)

主題(r)

網址

作者 阿瓦林 著

書名 中國 / 阿瓦林著 ; 陳昭廉等譯

版本項  第1版

出版項    [北京市] : 人民出版社,
              1955[民44]

稽核項    2, 347面 ; 19公分

人民幣    0.96元 (精裝)

附註        在香港重印
               據<蘇聯大百科全書>第二
               版第二十一卷(國家科學
               出版社)譯出
               含參考文獻

主題        中國 csh.

其他作者 陳昭廉 譯

008 950517r1955 cc b

000 0 chi dnam i

040 AS|cAS|dFSN

041 1 chi|hrus

100 2 阿瓦林|e著

245 10 中國 /|c阿瓦林著 ; 陳昭廉等譯

250 第1版

260 [北京市] :|b人民出版 社,|c1955[民44]

300 2, 347面 ;|c19公分

350 人民幣0.96元|b(精裝)

500 在香港重印

503 據<蘇聯大百科全書>第二版第二十一卷(國家科學出版社)譯出

504 含參考文獻

651 7 中國|2csh

856 http://www.sinica.edu.tw/chinese.htm

表一:MetaData Input、Representation & Retrieval及Storage & Exchange Format對照表-以圖書館書目資料為例


Page 1 of 4
上一頁

回目錄

下一頁

文獻處理實驗室