转换到繁體中文

您的位置 : 首页 > 报刊   

[图书情报学研究]数字保存系统质量保证风险与策略研究(摘要)
作者:徐瑞平

《郑州大学学报(哲学社会科学版)》 2007年 第02期

  多个检索词,请用空格间隔。
       
       摘 要:数字保存系统的基本价值在于提供值得用户信任的数字资源存取能力,质量保证是实现该价值的最有效方法。数字保存系统质量保证风险范畴涉及多方面内容,可以从数据备份、数字迁移、数字仿真和系统认证等角度实施数字保存系统的质量保证策略。
       关键词:数字保存系统;质量风险;质量保证策略
       中图分类号:G250.74
       文献标识码:A
       文章编号:1001—8204(2007)02—0163—03
       数字资源的快速增长使用户对其存取、管理和服务的质量要求与日俱增。由于数字资源的固有特性,保存时间越长,其可用性、真实性、完整性和可靠性所面临的挑战越大。数字保存系统的保存内容是信息资源数字化的产品(如美国国会图书馆的“AmericanMemory”),或原生型数字资源(如荷兰国家图书馆的KB e-Depot),或这两种类型的复合(如CNKI的中国期刊全文数据库)。数字保存系统的基本价值在于:提供值得用户信任的数字资源存取能力,确保数字资源的质量,并有利于数字资源的开发利用。实现该价值的有效方法是分析其质量保证风险,并制订相应策略。
       一、数字保存系统质量保证风险
       数字保存系统虽然为用户利用数字资源提供了极大便利,但同时也给用户带来了诸多风险,比如,所得到的数字资源质量如何?是否真实?是否完整?是否可靠?等等。因此,在数字保存系统的设计规划阶段,就需要对其质量保证风险进行充分分析。
       数字保存系统的质量保证风险范畴有:
       (1)存储介质风险。就目前状况看,所有存储介质都会随时间的推移而逐渐退化,造成无法恢复的存贮字节错误,并且会带来诸如磁盘损坏等造成大量数据丢失的意外故障。
       (2)硬件故障。所有硬件组件都可能出现短暂的可挽回的故障,以及无法挽回的灾难性故障。
       (3)软件故障。所有软件都有可能会遭受病毒攻击,导致所存储数据丢失的风险。
       (4)数据传输风险。数字保存系统在某特定时间内都有可能出现接收或发送数据失败,并且也难以确保信息完整无损地传送。最新一项研究表明,数据在网络中传输的错误率为一百六十万分之一。
       (5)网络服务失败。数字保存系统使用的外部网络服务可能会出现暂时或永久故障,如域名可能会突然消失,或被重新分配,URL的解析出现失败等。
       (6)存储介质与硬件过时。所有的存储介质和硬件设备最终都将完全丧失性能。但在这个过程中,它们将逐渐过时,无法有效地传输或保存数据,此时就要进行介质的刷新或硬件的更换。
       (7)软件过时。软件会随时间的推移而逐渐过时。软件过时与数据格式过时密切相关。尽管比特流中的数据仍可被编译,但信息不再能以存储格式解码为一种可读的形式,此时,一般认为浏览软件过时。
       (8)操作失误。操作员行为所造成的失误也有可恢复和不可恢复两种。这种失误不仅针对数字保存系统,而且也会涉及相应的操作系统,以及其他应用程序、硬件设施和传输网络等。
       (9)自然灾害。自然灾害(如水灾、火灾及地震等)对存储介质、硬件和基础设施的破坏是显而易见的。
       (10)外部攻击。传统介质的文献保存系统(如图书馆、档案馆等)易遭受恶意破坏,数字保存系统也难幸免。为了被广大用户所存取利用,数字保存系统就必须与公共网络相连接,来自公共网络的各种攻击就不可避免。
       (11)内部攻击。计算机系统非法滥用常常来自于系统内部,主要是授权用户的非法行为。即使与外部网络完全隔离,数字保存系统也要考虑来自授权用户的非法攻击。
       (12)经费风险。数字资源的长期保存要比传统的纸介文献更易受经费的影响。这主要因为,除了完备的基础设施之外,数字资源的长期保存需要不断地进行存贮介质和数据格式的迁移,以确保数字资源的可访问性。而这种迁移的代价是非常昂贵的,甚至随着时间的推移,迁移的成本会越来越高。
       (13)机构风险。数字保存系统的运营机构常常是商业公司(如中国期刊全文数据库的生产和保存机构清华同方、日本著名的电子出版物保存机构Koninklijke Bibliotheek公司等)。这类机构可能会解体、破产或变更业务范围,从而导致支撑数字保存系统的技术或环境不复存在。
       二、数字保存系统质量保证策略
       1.数据备份
       数据备份是避免风险的最基本策略,因为数字信息区别于模拟信息的最重要之处在于,备份不会导致信息的丢失,并且可以存储为信息的多个副本,从而降低其保存风险。所以,备份是数字保存系统应该具备的基本功能,但这远远不够,因为从备份中恢复数据常常会遇到一些麻烦。
       采用备份策略的著名例子有美国佛罗里达州的DAITSS数字保存系统和英国大不列颠图书馆的数字保存系统,二者分别接受来自美国和英国信息资源数字化生产项目委托保存的数字资源。每件数字资源在在线提交给数字保存系统时,均在本地自动生成一个备份。并在成功提交后,在数字保存系统中又自动产生一个离线备份。
       在系统层面上采用动态数据备份策略的一个著名例子是美国LOCKSS数字保存系统。这是一个分布式的数字保存系统,每个分布点(可以是图书馆,也可以是商业性的信息服务机构)对其服务领域的数字资源进行备份,信息的复制份数是评价数字资源的主要指标。当有新的数字资源上传到数字保存系统时,LOCKSS审核程序提醒相应的分布点操作员以便备份。
       2.数字迁移
       数字迁移是指当数字资源的文件格式出现过时危机时,就将其转化为新的文件格式。例如,如果技术发展表明PDF 1.1版本将很快不能存取,所有用该格式保存的数字资源就要被转化为新的版本格式(如PDF1.4版本格式)。这样,数字资源就进入下一个可被访问的生命周期,直到PDF 1.4版本格式出现不可存取危机为止。这时,就要进行下一个数据迁移过程。
       作为数字资源保存策略的迁移法,其主要优点在于数字资源总是以能够被普遍接受的格式为人们所使用,现行的硬件与软件能够毫无障碍地访问数字资源,且可以被复制。
       迁移法的主要缺点有三:其一是在格式转化过程中,数字资源的一些样式(layout)甚至一些数据将会丢失。如果数字资源的原始样式需要重点保存,迁移法或许不是最好的选择。其二是迁移法的操作对象是数字资源集合中的单件资源,如果数字资源集合庞大,转化过程需很长,工作量很大。其三是如果数字资源的文件格式已作废或所用的转换工具不再有效,那么采用这种方法进行格式转换就不可行。因此,采用数据迁移策略时,必须不断地开发并运行转换程序,以免数字资源的格式过时。
       作为数字保存系统质量保证策略的一种,数字迁移的过程和结果都具有不确定性。因此,数字迁移本
       身也存在着风险,这种风险主要体现为三大范畴:其一是与系统管理相关的风险。这类风险包括缺乏机构支持、资金、系统软硬件以及数字文档管理人员等。这些都是数字保存系统的重要组成部分,数字资源乃至其拥有者都在不同程度上受数字迁移影响,与数字资源有关的法律政策也会增加迁移的风险值。其二是与数据文件格式相关的风险。这些包括在迁移过程中容易被修改的文件内部结构要素。其三是与格式转换过程相关的风险。格式转换软件的转换结果可能理想,也可能不理想,转换错误或有或无,或大或小。
       3.数字仿真
       仿真法的采用不改变数字资源的文件格式,也不改变用于数字资源访问的软件或浏览器,但要提供采用原来浏览软件来浏览原始格式数字资源的一个工具,这个工具称为仿真工具。仿真工具在新的环境下工作,使原来的浏览器和原来的工作平台适应于新的环境。
       仿真法的最大优点在于保持数字资源的外观,比如,保存书籍时,其真实的外观就可长久被保存。但仿真法的一个最大缺点是开发和维护这种仿真工具是非常复杂的,也是很困难的,成本也是非常可观的。在实际应用中,要维护多个仿真工具,但即使这样也很难确保这些工具对未来计算机平台的有效性。
       如果引入一个虚拟层(virtual layer),仿真工具的维护费用就会大大降低。在这种情况下,所开发的仿真工具运行在一个虚拟机(virtual machine)上,虚拟机的顶端是仿真工具的接口,当技术环境发生变化时,只需调整虚拟机的底端,仿真工具不受影响。
       对于一个具体的数字保存系统来说,在数字资源格式过时时,到底是采用迁移技术,还是仿真技术,主要考虑下述三个方面的因素:
       第一,用户需求因素。如果用户对显示在其终端的数字资源的外观有着明确要求,就需要采用仿真技术,相反,可以考虑迁移技术。但一般来讲,用户是希望看到数字资源的原始外观。
       第二,数字保存系统本身的因素。有些信息资源数字化项目将其所生成的数字资源委托给一个商业性的数字保存公司来保存,在这种情况下,数据的长期维护工作就交给了商业公司,商业公司采取哪种技术,有时取决于数字化项目的要求。比如,如果数字化项目要求数据保存公司保存的数字资源不能损坏其外观,也就只有采用仿真技术。
       第三,数字资源本身的因素。技术环境的变化就要求数字资源的保存格式能够被现行的软硬件技术所访问,并且能够被复制和重复使用,很明显,只有迁移技术才能满足这种需要。
       因此,在对这两种技术进行评估时,不能侧重一个而忽视另外一个。实际上,虽然它们要达到的目的是一致的(都是要使用户能够访问格式已经过时了的数字资源),但它们的原理不同,采用的方法也不一样,不存在着谁优谁劣,所以都需要研究。
       4.数字保存系统认证
       对数字保存系统认证的研究至少已有10年历史。早在1996年,受研究图书馆集团(RLG)和数字资源存取委员会(CPA)的委托,数字信息保存工作组(TFA-DI)在其著名的研究报告《保存数字信息》中提出:“数字保存基础设施的关键因素之一是要有足够的值得信赖的数字保存系统对数字资源进行存储、迁移和存取。可信任数字保存系统不能自我鉴别产生,需要一个科学的认证过程来创建一个可信任的环境。”2000年,《OAIS参考模型》的出现使得数字保存系统基础设施的构建得到进一步发展。该参考模型试图建立一个统一的数字资源长期保存所需的条件,并提供一个用来描述数字资源长期保存系统的共同环境、功能组件和数字对象。实际上,《OAIS参考模型》在2002年作为ISO标准发布之前,许多数字保存系统就采用OAIS来设计其基本框架,很多系统声称符合OAIS,并将其作为具有可信任性的参照点。2002年,RLG和OCLC共同发表了《可信任数字保存系统:属性和职责》,对于不同规模的文化和学术机构所运行的数字保存系统的可信任性和可持续性进一步构建了一个属性和职责框架。这个框架非常宽泛,足以包容各种环境、技术基础和机构职责,为可信任的数字保存系统提供了一个认证基础。该框架所建立的高级别的组织和技术属性以及所探讨的数字保存系统的可能的认证模型,对保存机构非常实用,并可与OAIS结合一起作为数字资源保存规划的工具。这个认证框架比较全面地总结了数字保存系统的特性,强调了对数字保存系统进行认证的必要性,推荐了认证程序和审计指标。
       2005年5月,研究图书馆中心(CRL)发布了《数字保存系统认证项目》,同年8月,RLG—NARA也联合发布了《数字保存系统认证项目(草案)》,不仅制订了认证标准,而且还制订了认证过程所采用的方法。
       数字保存系统的可信任状态不能简单地自我授予,需要一个认证模型来对其进行全面认证。这类认证的实施涉及到许多因素,其中最主要的是认证对象的选择、认证的级别、认证师的信息保障和认证阶段之间的审计等。
       对一个特定的数字保存系统来说,在确定认证项目之后,就要确定要认证的数字资源提供商和服务提供商。系统的运行管理机构可能与其保存的数字资源提供者不一致,更多情况下是一个保存系统拥有多个数字资源提供者,不同的提供商所提供的数字资源的质量可能不同,有些提供商所提供的数字资源可能是免认证的。同样,如果大多数用户认为认证是其选择服务提供商的一个重要因素,那么从商业角度来讲,服务提供商就必须进行认证。甚至在一些领域里,对一些服务提供商的认证是法律上的义务。当然,如果认证成本太高或认证过程过于复杂,那么认证就失去了吸引力。但对于绝大多数的数字资源提供商和服务提供商来说,并非一定要进行认证,成本效益分析是认证对象选择的权衡基础。
       认证有不同的等级。数字保存系统自我认证是级别最低的认证,对系统内部过程管理很有用处,可以使用类似于RLG—NARA的认证项目来进行。对于那些申请更高级别认证的保存系统,自我认证是必须进行的。另外,为了降低存储风险,自我认证也是一种最常用的方法。有效的自我认证可以降低第三方认证的成本。级别越高的认证涉及的认证项目越多,认证成本也越高,因此并非每一个数字保存系统都需要最高级别的认证。
       认证工作的具体实施者是系统认证师。认证师需要大量信息来对认证对象进行理解。最初的保存系统自我认证已确认其信息基础设施足够充分,完全能够满足外部认证的严格要求。认证师需求的信息包括:数字资源保存方针、工作流程、保存记录、资金和人力资源记录以及整个系统的运行数据等。只有认证指标具有可测度性,目标具有可计量性,认证师才可能得出比较客观结论。认证过程需要分析保存系统中各种对象之间的关系,对数字资源生产者和消费者的需求分析将有助于考察数字保存系统的运行绩效。系统的各种功能以及与操作者之间的关系也是认证的重点,因为这方面的认证将有助于考察保存系统的健康性和保存数字资源的真实性和可理解性。
       认证的时间跨度也是要考虑的一个重要因素。从时间维度看,对任何一个数字保存系统的认证不可能是无限的。随着时间的推移和环境的改变,认证项目也会有变化,使得再次认证不可避免。因此,数字保存系统可信任性认证具有阶段性,每两个阶段之间要进行若干次的审计。审计的目的在于在下次认证之前确保保存系统可信任状态的连续性,主要方式是对保存系统进行评估,并将评估结果与上次的认证状态进行相符性比较。
       作者简介:徐瑞平(1971—),女,河南南阳人,郑州大学远程教育学院讲师。
       基金项目:国家自然科学基金项目“数字保存系统质量保证标准与认证研究”(编号:70673094)。
       参考文献
       [1]J.Stone,C.Partridge.When the CRC and TCP checksum dis-agree.SIGCOMM,2005,(6).
       [2]The Florida Center for Library Automation.DAITSS Over-view,2005,(8).
       [3]Priscilla.Caplan.Building a digital preservation archive:Tales from the front.The Journal of Information and Knowl-edge Management Systems,2004,(1).
       (责任编辑 郑良勤)