文獻處理實驗室 專案計畫

行政院國家科學委員會研究計畫案 1999年12月

數位典藏系統規劃與建置

Page 2 of 4

貳、系統架構規劃與建置

從去年八月份開始,經過多次與本院參與此一數位博物館專案計畫的所有主題計畫主持人/共同主持人會議洽談之後,對於數位典藏系統的基本功能需求,我們有以下的觀察。數位圖書館的相關人員可以區分為資訊使用者、資訊內涵提供者、核心技術提供者和虛擬辦公室成員等四個團隊。圖一為本計畫根據以上四種人員在數位典藏中的定位及功能所規劃出的系統架構,說明如下:

  • 資訊使用者:這類人員使用數位典藏系統的主要目的,是在尋找適當的資訊,以充實自我(一般使用者),或是從事更深一層的研究(進階使用者,如專家學者)。

  • 資訊內涵提供者:資訊內涵提供者主要的功能,則在提供資訊使用者適當的文物典藏資料。並也負責校對資料的正確性,除了需要動態更新資料以外,也需要掌握資料對外的時機和開放的範圍。

  • 核心技術團隊:此團隊的主要功能,在於提供完整的核心技術,並在整體系統的應用流程中開發並維護各種應用工具,以供資訊內涵提供者及資訊使用者使用。就資訊內涵提供者方面而言,核心技術團隊需提供資料的蒐集、典藏工具。其中典藏工具則包含將蒐集的資料以知識性的詮釋敘述並存入資料庫中(數位化)。就資訊使用者方面而言,核心技術團隊需提供資訊基礎工具,包含資料搜尋(影像內涵、全文、網頁、資料庫)及瀏覽(分類、影像、影片) 工具。此外整體系統的管理及維護也是核心技術團隊所需著重的課題。

  • 虛擬計畫辦公室:這個網站在計畫執行期間提供計畫人員的討論園地和儲存所有的相關文件,在計畫執行結束之後,也成為記載計畫活動記錄的虛擬空間。

圖一 數位典藏系統架構

圖一 數位典藏系統架構

圖二顯示數位典藏系統中,資料從蒐集、典藏、到展示等步驟的主要流程。此圖說明了,除了前端的展示呈現之外,也需要整套內容管理環境作為配套,才能讓資訊內涵提供者和資訊進階使用者都能在這個虛擬環境中,系統性地操作資料,以維護資料品質,也更容易深入探討各種知識。執行過程中,技術團隊與資訊內涵提供者之溝通與協調,對他們典藏文物資料的分析與瞭解,使用者之需求與習性,花費不少時間與人力。合作機制之建立,及各研究人員、助理之時間上的配合,對本技術支援計畫的確是一個相當的挑戰。尤其這又牽涉到跨領域之間的合作。

圖二. 資料蒐集/典藏/展示流程

圖二. 資料蒐集/典藏/展示流程

圖三為影像搜尋系統(子計畫一)的流程圖。基本上本系統架構可分成三部分─查詢輸入介面、搜尋引擎和查詢結果介面。查詢輸入介面主要提供使用者不同的輸入查詢方式;我們設計有四種模式:靜態範例影像查詢(圖四)、動態範例影像查詢(水族箱,圖五)、上傳影像查詢和電腦輔助手繪(Computer Aided Drawing)圖型輸入查詢。在第一種和第二種模式,都是從資料庫中,隨機取出幾個樣本影像,利用靜態的形式,或動態(如水族箱中游動的魚群)的形式,讓使用者選擇一條樣本魚的影像作為查詢輸入。這樣的輸入查詢方式,主要是提供寓教於樂的功能。而第三種─上傳影像查詢─模式,則可讓使用者將在用戶端的影像上傳到伺服器端,作為查詢依據。至於電腦輔助手繪圖型輸入,則是設計一套輔助的繪圖軟體,協助使用者快速且有效地描繪出希望查詢的魚體形狀。

圖三. 魚類資料庫影像索引系統流程圖

圖三. 魚類資料庫影像索引系統流程圖

圖四.靜態範例影像查詢介面

圖四.靜態範例影像查詢介面

 圖五. 動態水族箱查詢介面  圖五. 動態水族箱查詢介面

圖五. 動態水族箱查詢介面

搜尋引擎的功能包含:影像前處理、前景和背景分離、特徵擷取、和特徵相似度的比較等。基本上,第一種和第二種輸入查詢模式,可以直接計算特徵向量與在資料庫中其他特徵向量的相似度。至於其他兩種輸入模式,則必須先利用影像前處理,將影像中的魚體與背景分離,再從分離出的魚體上擷取相關特徵進行比對的工作。當我們有了比對的結果時,系統不僅將相類似魚體的影像、相似度及中英文學名呈現在網頁上(圖六),同時利用這些相對應的學名,作為關鍵字,預先設定連結到以文字為基礎的魚類資料庫查詢系統;只要使用者希望得到更詳盡的資料時,輕點一下這個學名,便可直接連結到另一個資料庫,輕易取得所要的資料。

圖六. 查詢結果介面

圖六. 查詢結果介面

在子計畫二「 Web 介面資料庫速成工具」方面,目前已完成道邇 III (DORE 3) 資料庫速成工具,其中包含資料描述語言(DDL)、報表語言、資料管理網頁規格、資料查詢網頁規格及瀏灠器伺服器間訊息的設計。此系統設計考量在於, 務求較大的整體功能及彈性, 並有良好的擴充空間,同時亦儘量免除資料庫管理系統 (DBMS)的牽連, 減少預加給使用者的限制。我們已利用此工具建構了漢代墓葬之資料庫, 並支援使用者利用網頁的方式來管理及查詢所建立的資料庫。查詢網頁之網址位於 http://www.sinica.edu.tw/~hantomb/d_index.html。對 DDL 及衍生的資料庫建立程序、資料管理介面有興趣者, 請參考 網址http://udb.sinica.edu.tw/~dore3/tomb, 該處存有漢代磚室墓的資料綱要等。

子計畫三「數位典藏核心技術」的成果分成以下幾部份進行討論。我們根據主題計畫的資料操作模式,詳細制訂資料庫的資料結構,並透過與國際通用的metadata標準規範進行交叉比對,試圖提高資料的可攜性。Metadata小組針對平埔與漢墓等兩項計畫之資料進行分析,已完成事項包括:Metadata共通性基礎架構(Metadata Format Framework)、Metadata記錄結構(Metadata Record Structure)、Metadata類型與互動關係結構(Metadata Types and Relations)、Metadata共通性互動關係模式(Metadata Relation Model) 及 中文Metadata規劃與應用指引

在檢索技術方面,除了基本的全文檢索技術以外,我們也提供對指定的欄位式的註解資訊作複合查詢,以提高檢索結果的準確度。

在資料庫的設計上,由於與我們合作的主題計畫都仍在陸續更新典藏資料,因此,我們開發了(1)前端典藏蒐集工具 (Content Collection Tools),來取代原始田野調查時所需之人工作業。(2) 多媒體典藏存儲系統(MARS- Multimedia Archive and Retrieval System)(如圖七)以整合大量儲存媒體、建立定期典藏系統之備份及作業程序、調整系統整體效能,及整合全文檢索伺服器、影像伺服器等技術。此系統亦可與Video Charger等隨選視訊伺服器搭配。(3) 典藏資料庫,其內容管理系統架構如圖八所示。在這個架構下,系統主要有身份識別、後製作、Metadata伺服器、多媒體儲存器、streaming server、exporter、與search engine等七個主要的組件。除了提供模組化的多媒體伺服功能之外,透過這個組織架構,身份識別與典藏資料庫彼此獨立,因此,資料擁有者可以透過網路授權其他使用者連線操作遠端資料庫伺服器;藉由產生metadata對應的XML文件,這套系統可以送出典藏資料庫內容,也可以與全文檢索引擎結合。事實上,我們的檢索引擎同時提供網頁全文和資料庫欄位搜尋等多重功能。

wpeA.jpg (80901 bytes)
圖七 MARS系統架構圖

圖八. 內容管理環境架構

圖八. 內容管理環境架構

至於多媒體後製作部分,我們也為主題計畫內容提供者準備了自動化的製作環境,在使用者將多媒體內容數位化,並且輸入相關的metadata之後,即可以透過簡單的互動介面,下令系統自動地完成整個後製作程序。以影像檔為例,包括接圖、產生thumbnail、以及送入影像儲存伺服器等各個動作,都可由系統自動地完成。數位音訊與視訊的後製作過程亦大致相同。

在計畫辦公室的虛擬網站部分,我們則提供一套工具協助計劃管理者進行計劃管理、行事曆管控、文件管理存取權限控制、搜尋文件,以及子計劃間之交談、溝通之工具。此系統之存取機制設計可允許多人分享讀取、維護之管控作業,其存取權限之機制可分三層次,計劃領導者、計劃管理系統維護者,以及各分項計劃辦公室之成員等層次。文件檔案架構以樹狀方式表達,將不同文件類別(Category)分層管控。

至於權利管理部分,我們也部分引進浮水印和PKI等技術,利用分散式授權的方式,以充分保障內容擁有者的權益。

此外,中央研究院資訊所電腦系統與通訊實驗室亦協助開發特用的CD多媒體光碟與視訊服務子系統,以及如何管理頻寬系統資源和保證QoS,以便在寬頻網路上提供高品質多媒體服務。


Page 2 of 4
上一頁

回目錄

下一頁

文獻處理實驗室