国产成人毛片视频|星空传媒久草视频|欧美激情草久视频|久久久久女女|久操超碰在线播放|亚洲强奸一区二区|五月天丁香社区在线|色婷婷成人丁香网|午夜欧美6666|纯肉无码91视频

網(wǎng)絡(luò)信息資源保存

網(wǎng)絡(luò)信息資源保存——基于多元層次描述的構(gòu)建方法探析王暢2012-9-27 15:10:34 來源:《圖書情報(bào)工作》(京)2010年21期【英文標(biāo)題】The Network Information R

網(wǎng)絡(luò)信息資源保存

——基于多元層次描述的構(gòu)建方法探析

王暢

2012-9-27 15:10:34 來源:《圖書情報(bào)工作》(京)2010年21期

【英文標(biāo)題】The Network Information Resource Preservation:The Construction Method Based on the Multi-level Description

【作者簡介】王暢,男,1979年生,館員,編輯,已發(fā)表論文12篇。武漢圖書館武漢430015

【內(nèi)容提要】通過列舉國際相關(guān)網(wǎng)絡(luò)資源保存項(xiàng)目,分析各項(xiàng)目所采用的信息組織規(guī)范,探討網(wǎng)站信息多元層次的組織架構(gòu)以及網(wǎng)絡(luò)信息保存的多元層次描述方法。闡述檔案來源原則的理論基礎(chǔ)與控制層次應(yīng)用。通過分析互聯(lián)網(wǎng)多元層次的組織架構(gòu),探討網(wǎng)絡(luò)資源基于多元層次的組織和描述方法。最后,提出關(guān)于網(wǎng)絡(luò)信息長期保存發(fā)展的建議。

This paper introduces several projects of the web archive and analyses their principle of the information organization, intends to discuss the way of building and constructing for the web archive with the multi-level description. Besides, this paper reviews the theoretical foundation of the archive principle of provenance and practical application of control level. Web multilevel framework is analyzed in order to discuss the possibility of the application of web archive with web multilevel description. Finally, suggestions about keeping development of the web archive for future research are made.

,

【關(guān) 鍵 詞】多元層次描述/網(wǎng)絡(luò)信息保存/檔案來源理念Multilevel description/Web archive/The theory of the archive provenance

隨著信息網(wǎng)絡(luò)環(huán)境快速發(fā)展,互聯(lián)網(wǎng)技術(shù)的興起與普及,各種原生型數(shù)字資源不斷蓬勃發(fā)展,特別是在互聯(lián)網(wǎng)上的信息資源更是與日俱增。圖書館與各種信息服務(wù)機(jī)構(gòu)正著手研究數(shù)字資源保存和利用的相關(guān)問題,并開始進(jìn)行各種網(wǎng)絡(luò)信息保存計(jì)劃。網(wǎng)絡(luò)信息資源的長久保存不僅是要提供現(xiàn)階段的使用與服務(wù),同時(shí)也為將來提供研究及傳播知識(shí)的服務(wù)。

1、網(wǎng)絡(luò)信息資源保存計(jì)劃及其資源組織現(xiàn)狀

隨著互聯(lián)網(wǎng)的發(fā)展與信息技術(shù)的重大變革,知識(shí)傳播主要媒介已經(jīng)由傳統(tǒng)紙質(zhì)轉(zhuǎn)移到數(shù)字形式,而互聯(lián)網(wǎng)正是數(shù)字資源傳播的主要環(huán)境。目前,互聯(lián)網(wǎng)可謂是世界上最龐大的數(shù)字資源集中地。有鑒于網(wǎng)絡(luò)資源已成為知識(shí)的主要形式,而網(wǎng)絡(luò)信息資源快速增長及迅速消失的特性使各國開始注意到網(wǎng)絡(luò)信息資源保存的重要性并開展相關(guān)的研究及實(shí)踐。從1996年起,澳大利亞國家圖書館

(National Library of Australia ,NLA) 開始進(jìn)行Pandora 計(jì)劃,美國公益性組織創(chuàng)辦Internet Archives ,美國國會(huì)圖書館于2000年開始著手Minerva 計(jì)劃,我國的國家圖書館于2004年進(jìn)行網(wǎng)絡(luò)信息資源保存試驗(yàn)項(xiàng)目[1]。

1.1國外主要網(wǎng)絡(luò)資源保存項(xiàng)目簡介

●Internet Archive:人類知識(shí)的全球化使用(Universal access to human knowledge) 。Internet Archive 成立于1996年,由Alexa 創(chuàng)始人布魯斯特·卡

,

利(Brewster Kahle) 創(chuàng)辦,是一個(gè)網(wǎng)絡(luò)信息保存及研究的公益性計(jì)劃。定期收錄并永久保存全球可開放獲取(Open access)的HTML 網(wǎng)頁資源[2]。

●Pandora :澳大利亞網(wǎng)絡(luò)文獻(xiàn)資源的保存與利用(Preserving and

Accessing Networked Documentary Resources of Australia)。該項(xiàng)目由澳大利亞國家圖書館于1996年開始啟動(dòng),其目的是在建立一個(gè)澳大利亞網(wǎng)絡(luò)信息資源歸檔系統(tǒng)的同時(shí),為保護(hù)和存取澳大利亞電子資源制定政策和程序[3]。

●Minerva :網(wǎng)絡(luò)電子資源虛擬檔案鏡像(Mapping the Internet Electronic Resources Virtual Archive)。由美國國會(huì)圖書館從2000年開始實(shí)施,主要目標(biāo)是為有關(guān)網(wǎng)絡(luò)信息的選擇和收集方面的實(shí)際問題提供試驗(yàn),從而為美國國會(huì)圖書館運(yùn)行一個(gè)大規(guī)模的網(wǎng)絡(luò)信息保存項(xiàng)目提供指導(dǎo)和經(jīng)驗(yàn)[4]。

1.2網(wǎng)絡(luò)信息資源收集策略對(duì)比分析

以上三個(gè)項(xiàng)目所采取的網(wǎng)絡(luò)信息資源收集策略主要有兩種:一是主體收集:所有符合標(biāo)準(zhǔn)的網(wǎng)站都加以收集,如Internet Archive是收集所有HTML 網(wǎng)頁;二是選擇性收集:由圖書館員或其他專家針對(duì)個(gè)別網(wǎng)站評(píng)選,按照相應(yīng)標(biāo)準(zhǔn)進(jìn)行選擇性收集。如澳大利亞的Pandora 計(jì)劃和國會(huì)圖書館的Minerva 項(xiàng)目。

選擇性收集的優(yōu)點(diǎn)在于不必將有限的人力、物力等資源浪費(fèi)在保存很多垃圾信息上,同時(shí)還可以對(duì)收集到的網(wǎng)絡(luò)信息進(jìn)行質(zhì)量控制,并根據(jù)實(shí)際情況提供檢索。但是選擇性策略的缺點(diǎn)也比較突出,首先進(jìn)行甄別篩選是非常費(fèi)力的事情,需要相當(dāng)多的人力、財(cái)力;其次選擇標(biāo)準(zhǔn)主觀性很強(qiáng),由人為主觀進(jìn)行選擇一方面可能會(huì)漏掉一些重要的網(wǎng)絡(luò)信息;另一方面也會(huì)有對(duì)選擇標(biāo)準(zhǔn)的非議。

,

主體收集可能會(huì)保存很多沒有價(jià)值的網(wǎng)絡(luò)信息,但是會(huì)節(jié)省人力。盡管從理論上來講主體收集可以對(duì)選定域名內(nèi)的網(wǎng)絡(luò)信息的所有更新進(jìn)行收集,但是由于目前收集工具的收集能力和其他技術(shù)因素,導(dǎo)致收集周期比較長,在這期間,可能就會(huì)漏掉一些重要的網(wǎng)絡(luò)信息。由于收集范圍廣,很難對(duì)所有收集到的網(wǎng)絡(luò)信息進(jìn)行質(zhì)量控制,因此很難保證收集的網(wǎng)絡(luò)信息資源的真實(shí)性和完整性。兩種資源收集策略的項(xiàng)目比較情況如表1所示:

1.3網(wǎng)絡(luò)信息資源組織及描述方式對(duì)比分析

3個(gè)項(xiàng)目在收集工具、收集方式、資源描述、檢索存取等方面各有特點(diǎn),現(xiàn)將其歸納,如表2所示:

,

1.4網(wǎng)絡(luò)信息資源保存項(xiàng)目優(yōu)劣分析

Internet Archive就其資源組織而言是以定期收集整個(gè)網(wǎng)站內(nèi)容的快照方式,數(shù)據(jù)量巨大,能以最全面最完整的形式保存網(wǎng)站資源。但其所收集的資源并未進(jìn)行整理與描述,僅能通過URL 進(jìn)行地址查詢、網(wǎng)頁瀏覽,無法提供關(guān)鍵詞或更深入的內(nèi)容查詢服務(wù),缺乏信息的主題性和特征性描述,對(duì)于網(wǎng)站信息整體架構(gòu)和發(fā)展脈絡(luò)的研究有一定的局限性。

Pandora 對(duì)每一個(gè)收集的項(xiàng)目都經(jīng)過評(píng)估及并得到相應(yīng)的技術(shù)支持,資源組織方式是將網(wǎng)頁主題內(nèi)容加以選擇并收集網(wǎng)頁快照,以整個(gè)網(wǎng)站或?qū)n}為描述單元,參考有關(guān)電子資源編目標(biāo)準(zhǔn)并建立查詢系統(tǒng),同時(shí)使所收集的網(wǎng)頁資源編目

,

紀(jì)錄能納入其國家書目網(wǎng),提供一致性的書目查詢服務(wù)。Minerva 則以主題選擇方式收集與保存網(wǎng)頁資源,其特點(diǎn)體現(xiàn)在以MODS 作為專題下的目錄層級(jí)的描述標(biāo)準(zhǔn),提供二元層次的整理與描述。以上兩個(gè)項(xiàng)目雖然在資源整理描述的方式和手段上優(yōu)于Internet Archive,但在資源組織方式上都是以主題內(nèi)容為選擇性的網(wǎng)絡(luò)信息保存,是主題導(dǎo)向的收集。由于收集者主觀判斷所產(chǎn)生的偏差以及將資源抽離原有情境所產(chǎn)生的干擾,可能導(dǎo)致重要信息與研究價(jià)值的缺失。

2、檔案編排來源原則與實(shí)施方式

網(wǎng)絡(luò)資源的保存與開放使用,其核心在于網(wǎng)頁資源的編排與描述方式。網(wǎng)絡(luò)資源如同檔案數(shù)據(jù),是一個(gè)有機(jī)成長的可收集性資源,資源之間是一個(gè)具有相互關(guān)聯(lián)的結(jié)構(gòu)性組織。

2.1檔案編排來源原則的理論基礎(chǔ)

檔案編排來源原則最初起源于1841年法國檔案學(xué)者所提出關(guān)于“尊重全宗”的概念。來源原則具體實(shí)施方式為控制層次,其最佳闡釋是由美國學(xué)者荷默斯于1964年所提出的“現(xiàn)代檔案工作重點(diǎn)是由廣泛與一般性到微觀性與特定性,以漸進(jìn)方式收集與描述檔案單元”[9]。具體理論表現(xiàn)為:

2.1.1概念思想:來源原則檔案編排的來源原則,定義于檔案是隨著機(jī)構(gòu)或個(gè)人的業(yè)務(wù)與活動(dòng)所產(chǎn)生的文件,經(jīng)過有條件的價(jià)值鑒定,才得以成為長久保存的檔案數(shù)據(jù)。而經(jīng)由檔案可反映出某一機(jī)構(gòu)或個(gè)人的特征,因此檔案編排必須依據(jù)其來源[10]。

,

2.1.2具體表現(xiàn):尊重全宗在檔案實(shí)體整理與保管領(lǐng)域充分尊重檔案的自然形成規(guī)律,以檔案產(chǎn)生的有機(jī)體——機(jī)構(gòu)、家庭或個(gè)人的所有檔案,作為檔案編排整理的全宗[11]。

2.1.3內(nèi)容發(fā)展:尊重原始順序尊重原始順序原則是用以維護(hù)歸檔系統(tǒng),包括管理特殊的文件與其相互之間的關(guān)系。運(yùn)用尊重原始順序處理檔案在于原始順序具有下列特征:①反映當(dāng)時(shí)業(yè)務(wù)的確實(shí)情況;②保存文件原有的關(guān)系;③提供有關(guān)記錄產(chǎn)生、利用或活動(dòng)的文件證明;④增加檔案價(jià)值[10]。

2.1.4實(shí)施方式:檔案控制層次來源原則實(shí)際應(yīng)用的方式體現(xiàn)于控制層次,它是以全宗、系統(tǒng)、案卷與件為四個(gè)基本層次,從整體性到特定性,以漸進(jìn)方式收集與描述檔案單元。

現(xiàn)代檔案科學(xué)的發(fā)展表明,檔案編排以來源原則為理論基礎(chǔ),外部具體表現(xiàn)是尊重全宗,內(nèi)部延伸結(jié)構(gòu)為尊重原始順序,實(shí)際應(yīng)用方法是檔案控制層次。其理論結(jié)構(gòu)如圖1所示:

,

圖1檔案編排來源原則的理論結(jié)構(gòu)

2.2檔案控制層次模式

來源原則的具體實(shí)施是以檔案控制層次方式進(jìn)行,在全宗、系列、案卷與件等四大主要層次,依尊重全宗與尊重原始順序編排。每一基本層次中都包含有處理需求和檢索等內(nèi)涵與信息,具體包括[10]:①全宗:通常由一個(gè)機(jī)構(gòu)的文書或一個(gè)人的所有文件組成,應(yīng)收集該全宗檔案的一般性內(nèi)容與其整體的歷史或傳記信息。②系列:系列是在全宗之下,依機(jī)構(gòu)的下屬單位、業(yè)務(wù)或功能的記錄組成,包含有產(chǎn)生文件的特定業(yè)務(wù)與歸檔結(jié)構(gòu)等信息。系列是檔案描述最基本的單元。其描述項(xiàng)目應(yīng)包含:題名、日期、檔案數(shù)量、實(shí)體編排、內(nèi)容摘要等。③案卷:系列下包括的案卷,主要是檔案產(chǎn)生時(shí)為便于管理與保存,通過立卷依一定順序或標(biāo)準(zhǔn)將性質(zhì)相同的文件歸類。④件:指個(gè)別文件,是案卷下的組成單元。

檔案編排通過控制層次,提供全宗、系列、案卷與個(gè)別文件四項(xiàng)基本控制層次,形成多元層次編排的基礎(chǔ),可建立多元層次描述,提供多元層次描述信息及檔案內(nèi)容查詢與使用的服務(wù)。

3、基于檔案來源理論構(gòu)建的網(wǎng)絡(luò)信息資源多元層次描述結(jié)構(gòu)

3.1網(wǎng)絡(luò)信息資源的多元層次組織結(jié)構(gòu)

來源原則的編排依據(jù),有別于主題內(nèi)容選擇的主觀性,具有客觀、理性基礎(chǔ),適合網(wǎng)絡(luò)信息資源的特征,在互聯(lián)網(wǎng)內(nèi),網(wǎng)絡(luò)信息資源以統(tǒng)一資源定位符——網(wǎng)址(URL),以規(guī)定格式來獲取,例如http 、ftp 、gopher 、news 與mailto 等協(xié)議。

,

URL 是用來界定資源對(duì)象的位置與該對(duì)象的存取方式,URL 中的域名是共享一個(gè)共同地址的網(wǎng)絡(luò)計(jì)算機(jī)群組,域名本身具有結(jié)構(gòu)性,域名采用樹狀結(jié)構(gòu),并采用層級(jí)式管理。因此,網(wǎng)絡(luò)信息資源的編排可依據(jù)域名的層級(jí)式結(jié)構(gòu)來組織網(wǎng)站資源的控制層次,并形成網(wǎng)絡(luò)信息資源多元層次的界定與結(jié)構(gòu)。

3.1.1最高層:機(jī)構(gòu)或個(gè)人網(wǎng)站域名是組織、企業(yè)或個(gè)人在網(wǎng)絡(luò)環(huán)境中身份的代表,可作為定義一個(gè)全宗的明確的界定。如www.nlc.gov.cn 是國家圖書館的機(jī)構(gòu)域名。

3.1.2第二層:網(wǎng)站下子域名或主要欄目在機(jī)構(gòu)域名下,可根據(jù)網(wǎng)站各種服務(wù)功能(即欄目),針對(duì)子域名區(qū)分成不同系列。例如wenjin.nlc.gov.cn 國家圖書館文津圖書館獎(jiǎng)網(wǎng)站。

3.1.2第三層:在子域名或服務(wù)項(xiàng)目下相同性質(zhì)的網(wǎng)頁在子域名下,由于網(wǎng)絡(luò)資源更新,為便于保存與管理可經(jīng)由收集相關(guān)性質(zhì)的網(wǎng)頁,依日期或字母順序等次序加以編排。

3.1.4第四層:個(gè)別網(wǎng)頁網(wǎng)頁是網(wǎng)絡(luò)資源的最基本組成元素,有文本、視頻、動(dòng)畫等形式,同時(shí)也是以URL 界定與存取。

依域名與網(wǎng)址結(jié)構(gòu)所界定的網(wǎng)絡(luò)信息資源控制層次,是尊重網(wǎng)站創(chuàng)建者(機(jī)構(gòu)或個(gè)人)的原始結(jié)構(gòu)加以定義,如同檔案來源原則與控制層次的具體實(shí)現(xiàn),具備了客觀性且符合目的性的理論基礎(chǔ)。在網(wǎng)絡(luò)信息資源多元層次應(yīng)用中二者的對(duì)應(yīng)關(guān)系,如表3所示:

,

以來源原則為理論基礎(chǔ),依據(jù)檔案控制層次應(yīng)用方式,所構(gòu)建的網(wǎng)絡(luò)信息資源多元層次結(jié)構(gòu),除以域名為最高層級(jí)的來源用來了解網(wǎng)站創(chuàng)建者的歷史與建站目的外,運(yùn)用個(gè)別網(wǎng)站的網(wǎng)域結(jié)構(gòu)與尊重網(wǎng)站內(nèi)容歸類順序,更能符合網(wǎng)絡(luò)信息資源產(chǎn)生的背景與內(nèi)容結(jié)構(gòu)。

3.2網(wǎng)絡(luò)信息資源的多元層次描述模式

由尊重來源原則所建立多元層次描述模式,由整體性到特定性,從宏觀到微觀,以循序漸進(jìn)的方式來進(jìn)行描述,符合網(wǎng)絡(luò)信息資源有機(jī)成長的可收集性與結(jié)構(gòu)性,達(dá)到網(wǎng)絡(luò)信息資源組織的客觀性與目的性。根據(jù)網(wǎng)絡(luò)資源結(jié)構(gòu)與檔案控制層次的對(duì)應(yīng)關(guān)系,依照檔案來源原則描繪出網(wǎng)絡(luò)信息資源多元層次結(jié)構(gòu)如圖2所示:

標(biāo)簽: