大数据时代档案数据共享探析

时间:2023-03-31 14:44:17

摘要:共享利用是实现档案数据价值、释放档案数据能量的关键方式,是档案数据治理的重要环节,开展档案数据共享利用研究具有重要的理论意义与现实价值。通过理论借鉴、比较分析和探索研究,对档案信息开发利用与档案数据共享利用进行辨析,揭示档案数据共享利用的概念内涵与现实障碍,为档案数据共享利用实现路径提供研究基础围绕档案数据互联互通与开发共享,提出加强档案数据共享利用法规标准建设、创建档案数据共享利用机制、打造全国

大数据时代档案数据共享探析

利用服务是档案工作的目标和宗旨。共享利用强调共同享有、发挥效用,是实现档案数据价值、释放档案数据能量的关键方式,也是档案数据治理的重要环节。面对大数据时代社会公众日益便捷化、高效化、知识化、多样化的档案信息和档案文化需求,需要借助大数据、人工智能、知识发现、虚拟现实、数字人文等现代信息技术,探索新时期档案数据公共服务转型路径,创新档案数据开发利用方式,促进档案数据资源的开放共享、深度开发及有效利用,构建精细、精简、精准、智慧的档案数据公共服务体系,推动档案数据服务的智能化、社会化、个性化,把“资源库”变成“知识库”“思想库”“智库”【1】。档案数据共享利用是指充分利用现代信息技术和管理手段,注重多主体协同联动,强化档案数据资源建设,实现档案数据资源共建共享与互联互通。其中,各类现代信息技术是支撑,多主体协同联动是方式,档案数据资源建设是关键,档案数据资源共建共享与互联互通是目标。

1档案信息开发利用与档案数据共享利用辨析

1.1从内涵上看

档案信息是由档案中的文字、数据、图表、符号、信号等形式和内容所构成档案的内容就是信息,档案信息的构成就是档案所记载的各种事物的状态及表征【2】。数据是记录信息的物理符号,是表达和传递信息的工具【3】,数据被称为信息的原材料,而信息被称为在上下文语境中的数据【4】。档案数据属于数据,具有数据的一般属性。档案数据是客观事物的原始记录“符号”,档案信息则是档案数据加工后的产物,具有传达档案内容信息和形式信息的功能,档案数据是档案信息的基本构成元素。这里的“加工”并非指改变档案信息原始记录性的人为处理,而是指运用技术或人工手段,将数据辅以背景信息等描述,使之可被理解。档案信息资源开发利用是对已知档案信息资源进行有意识组织、加工的活动和过程,着重于档案信息资源的编纂编研、展示传播,缺少深层次关联和细粒度挖掘,属于浅表化开发。档案数据共享利用则注重数据的开放性、流动性、关联性、精准性,强调运用知识发现、数据挖掘、数据计算、数据分析、数据可视化、数字人文等技术方法对细粒度数据进行识别处理、深度开发,在知识关联的基础上充分释放档案数据价值【5】。

1.2从方式上看

在开发层次上,档案信息开发利用通常是浅表式开发利用,主要通过陈列展览、编纂出版、网上展示等方式提供利用,注重档案信息显性价值的开发。大数据时代,档案数据共享利用追求深层次开发,主要采用新技术、新方法、新手段,在汇聚融合多种格式、多种类型、多种结构档案数据的基础上,追求档案信息服务的精益化、知识化、智慧化,充分挖掘档案数据价值潜能,注重档案数据隐性价值和显性价值的全面开发。有利于挖掘发现档案数据中的隐性知识,使档案信息服务内容从表层向深层拓展,实现档案数据资源的潜在价值,提高档案信息服务深度和质量【6】。在开发手段上,档案信息开发利用主要基于人工操作和自动化技术开展利用,开发能力有限,服务效率较低。档案数据共享利用采用大数据、云计算、人工智能、数字人文、虚拟现实、区块链等新一代信息技术对多元化档案数据资源进行整合、感知、挖掘、计算、关联、可视化,建立档案数据共享利用平台,实现档案数据开发手段智能化。如河南省数字档案馆建成基于自然语言处理技术的智能检索系统,对馆藏档案数据资源深度挖掘,将关联信息准确有效地从大量结构化和非结构化数据中挖掘出来,进行汇总、统计、分析,并关联形成知识图谱,进而形成档案知识库【7】。

1.3从效果上看

档案信息开发利用面向馆藏实体档案、数字档案等档案信息资源,通过传统加工手段和计算机处理技术,形成成果汇编、专题展览、电子文献等开发利用产品。档案信息开发利用主要以馆藏为中心,属于“供给导向”服务模式,处于“等客上门”“你查我调”的被动式服务状态。这种服务模式制约了档案信息开发利用的范围和水平,社会利用意愿不强烈、利用效果有限,不利于档案工作社会影响力和社会生态位的提升。档案数据共享利用秉持“用户为中心”的服务理念,追求的效果是实现档案数据的增值化和知识化。通过语义理解、知识发现、全景或3D建模等新技术新手段,依托档案数据共享利用平台,深入挖掘展示档案数据的深层次价值,知识增值能力显著增强,为用户带来便捷的档案信息服务。档案数据共享利用可根据用户的历史行为轨迹和检索档案内容,进行统计、挖掘、分析,系统掌握用户信息需求,定制个性化的服务方案,主动推送相关档案信息,达到“投其所好”的服务效果,进一步提升用户体验感,使档案信息服务由静态转向动态,由被动转向主动,由普适转向个性,由滞后转向超前。以实时数据为支撑,做到一切尽在掌握,基于数据分析结果,采取更为精细化的服务方式,全方位满足用户多样化、差异化的档案信息需求【6】。综上,档案数据共享利用是在档案信息开发利用基础上,依托新一代信息技术,深度挖掘档案数据价值,实现档案数据融合互联,提供档案数据化服务。根据档案数据生命周期理论,档案数据价值决定着档案数据生命周期的长度,通过深度开发、知识激活、价值增值,有助于延长档案数据生命周期。档案数据共享利用不仅有助于数据资源的互联互通、集成汇聚,而且有助于推动以用户需求为导向的服务模式转型,有助于突破当前档案资源开发瓶颈,实现从“载体开发”到“内容开发”的转变,进而推动档案管理和服务模式创新。

2档案数据共享利用现实阻碍

当前,档案数据共享利用面临观念障碍、制度缺陷、技术瓶颈和人才短板等诸多困境,数据污染、数据异构、数据冗余、数据安全、数据孤岛等问题普遍存在,给档案数据资源服务创新、开放共享、安全利用等带来巨大挑战。

2.1法规标准缺失

法律是治国之重器,良法是善治之前提。《中华人民共和国档案法》《各级国家档案馆开放档案办法》等法规为档案开放利用提供保障。但档案数据属于新生事物,关于档案数据共享利用的针对性法规政策尚未建立,尤其是微观层面数据共享技术、数据生成质量、数据存储格式、数据平台架构等具体标准规范缺失。随着大数据技术的广泛应用,档案数据来源除了馆藏档案数据化外,业务活动生成的档案数据呈爆发式增长。据统计,2020年底,全国3341个国家综合档案馆的档案数据已经达到了21479T【8】。与此同时,数据来源多方、数据格式多样、数据结构多元、数据类型多种,对档案数据整合存储、共建共享、服务利用带来诸多困难,需要构建完善的档案数据共享利用法规标准框架。为此,一方面,要关注档案数据开放范围、共享机制、利用规则等规范制定;另一方面,要关注档案数据质量、档案数据格式、档案数据共享平台等标准建设。此外,还需关注档案数据国际流动、档案数据整合交换、档案数据伦理保护与安全保障等相关政策法规的制定。

2.2管理体制机制制约

档案管理体制是指在某系统内部围绕权力的划分和运行而形成的一种制度化的关系模式【9】。在档案事业“统一领导、分级管理”原则指导下,我国档案事业呈现出“条块分割”的特征。“条块分割”的档案管理体制符合我国疆域辽阔、行政区域层级管理的现实国情,但也造成了不同区域档案信息资源之间的隔阂,同属于党和国家的档案因为各自为政,互不往来,造成了信息难以被整合,其利用的效能也无法最大化;而由于过多地强调了‘条’的从属关系,许多行政管理机关从“块”的管理中剥离出来,直接从属于上级政府部门领导【10】,阻碍了各区域、各档案馆的档案数据互联互通和共享利用。此外,各行业、各部门、各类档案管理系统分散保存档案数据,政务档案数据和社会档案数据由于数据主体性质不同、利益不同,缺乏科学合理的协作机制,导致档案数据管理各自为政,各行业档案数据资源相互独立、互不相通,无法真正实现全社会层面的档案数据资源共享利用。如医疗系统、交通系统、金融系统、税务系统、公安系统、民政系统等,各自保管自行产生的档案数据,缺乏跨系统跨部门跨行业的档案数据共享利用平台,难以实现档案数据的互联互通和共建共享。从档案管理体制机制来看,管理体制条块分割,管理机制对接不畅,管理系统烟囱林立、重复建设等问题明显,跨区域、跨部门、跨层级、跨系统统筹协调难度大,难以形成整体合力,使得档案数据无法融合互通,阻碍共享利用的实现。

2.3数据技术能力薄弱

技术是档案数据共享利用的基础支撑,当前档案数据共享利用的技术应用能力相对薄弱,主要体现在:一是档案数据共享利用平台欠缺。共享利用平台是档案部门向社会提供档案数据服务的重要窗口,是展现档案部门服务成效的关键场域。当前,我国各省市县综合档案馆大多建设了官方网站和微信公众号平台,微博、客户端等平台建设也越发普遍,各类平台主要提供馆藏目录查询、专题展览、成果展示、业界资讯、业务动态等服务,从平台功能、服务类型、资源范围来看普遍处于浅层次利用。缺乏统一的档案数据共享利用平台,集成整合各类档案数据资源,实现一站式档案信息服务,需要构建功能完备、运维高效、安全实用的档案数据共享利用平台。二是档案数据开发利用技术不足。新一代信息技术是实现档案数据共享利用、互联互通的重要工具,但限于观念保守、经费投入不足、数据管理人员欠缺、技术风险以及地区经济社会发展不平衡等因素制约,档案部门数据开发利用技术应用不充分、不普遍、不深入、不均衡等问题突出,东中西部区域差距明显,档案工作与新兴技术融合参差不齐,整体水平较低。同时,由于技术能力有限,档案数据资源深层次开发与高效化利用不足,档案数据知识化、智慧化服务能力不强,制约档案数据价值发挥与潜能释放。三是档案数据管理专业技术人才匮乏。随着档案数据急剧增长,档案数据共享利用的广度和深度不断拓展,档案数据应用场景更加广泛,迫切需要档案数据管理专业人才。当前,档案部门中数据管理、数据计算、数据分析、数据挖掘、数据开发等技术人才十分匮乏,尤其缺乏兼具数据管理技术与档案管理经验的复合型人才,队伍整体的数据处理技能和数据知识素养亟待提升。

2.4数据资源问题突出

一是数据质量。数据质量是档案数据科学管理、有效开发的前提。档案数据质量受到技术因素以及非技术因素的影响,当前档案数据质量标准体系尚未建立,未实现对档案数据质量的全方位、全流程控制。首先,档案数据的真实性、完整性、可读性、安全性等难以保障【11】。档案数据采集获取主要以业务部门移交和馆藏档案数据化为主,对各平台系统和网络中产生的档案数据采集缺少“四性”检测标准与质量管控技术,难以保障来源广泛、类型多样数据资源的安全完整与真实有效。如全国民国档案资料目录中心组织专家对30个省市报送的2016年、2017年计3000余万条民国档案文件级目录数据进行验收审核后发现每个著录项都存在不规范问题。如著录项著录错位、文种错误、伪政权和解放后政权没做政权标识、页数与页码不相符、时间标识错误等【12】。其次,档案数据格式标准不统一。档案数据来源广泛、内容复杂、类型多样,大多是非(半)结构化档案数据。档案数据存储和管理系统各不相同,处理手段和技术存在差异,缺乏统一标准规范,导致档案数据异构现象严重,无法保证档案数据质量,严重影响档案数据共享利用和互联互通【13】。再次,档案数据的实时性影响共享利用成效。实时性是档案数据的基本特征之一,失时的档案数据其价值将大打折扣,为此对档案数据处理速度提出更高要求,如果数据处理不及时,有些变化速度快的数据就失去了其最有价值的阶段【14】。二是数据孤岛。“数据孤岛”是制度、技术等多重因素共同作用的结果【15】,致使档案系统、档案部门之间数据孤岛林立,无法互联互通,影响档案数据价值发挥、降低档案数据利用效率。管理层面,一方面,档案管理体制造成数据资源分散。我国条块分割的档案管理体制导致各级档案部门档案数据资源和档案数据管理系统相对隔离,导致档案数据资源难以兼容、关联困难、彼此孤立;另一方面,由于不同行业之间的固有壁垒,使得各行业档案数据管理系统差异较大,数据烟囱丛生,数据信息难以流通。技术层面,大数据环境下,档案数据的生成、来源、操作系统、存储管理技术等都可能导致档案数据格式异构;各级各类档案部门的数据交换、数据清洗、数据关联等数据处理技术水平差异,导致档案数据质量参差不齐;由于缺乏统筹规划和统一管理,档案部门在选取和应用档案数据管理系统和利用平台时具有较大的自主性,导致各平台之间孤立异构。针对数据孤岛,需要借助现代信息技术将来源分散的档案数据加以集中汇聚、整合融通,破除管理、技术、系统等造成的数据壁垒,从而实现档案数据共建共享,达到深层次利用的目的。三是数据安全。在档案数据共享利用过程中,由于网络环境的不确定性、操作流程的复杂性、涉及主体的多元性,黑客攻击、病毒侵袭、木马感染、信息非授权访问、管理疏漏等极易造成数据窃取丢失、篡改伪造和损坏泄露,安全问题日益复杂和突出,需要从组织规划、制度规范、日常管理、人才队伍、应急预案等方面构建动态、高效、立体的档案数据共享利用安全保护体系,促进档案数据安全有效利用【16】。首先是档案数据权属问题。档案数据在整合汇聚、流转迁移、交换传播、集成共享中涉及多部门、多主体,权属确定、权责划分、权益保障等问题越发凸显,尤其是不同应用场景、不同利用主体导致的责任划分不清、权限难以控制、数据溯源困难等问题亟待破解。其次是档案数据伦理风险。档案数据在开放共享、开发利用过程中涉及到的安全保密、知情同意、知识产权、个人隐私、法律救济等问题也是档案数据安全防范的重要内容。再次是档案数据国际流动、跨境传输带来的安全风险。大数据时代,档案数据跨境流动、跨国传输带来的信息泄露、网络攻击等风险加剧,威胁国家主权和社会安全。如2021年3月,国家安全机关工作发现,国家某重要军事基地周边建有一可疑气象观测设备,具备采集精确位置信息和多类型气象数据的功能,所采集数据直接传送至境外【17】。为此,应积极开展档案数据共享利用的国际合作交流,参与制定档案数据安全相关规则标准,有序推动档案数据安全流动、跨境传播。

3档案数据共享利用实现路径

根据档案数据共享利用现状,为解决档案数据共享利用面临的现实阻碍,需要从法规建设、机制创建、平台打造、技术赋能四个方面,构筑档案数据共享利用实现路径,推动档案数据共享利用有序开展。

3.1加强档案数据共享利用法规标准建设

完善档案数据共享利用政策法规。政策法规建设是战略层设计,是推动档案数据共享利用顺利开展的重要保障,具有指导引领作用。当前,国家层面针对公共数据开放利用、政务数据互联互通、档案信息共建共享等方面颁布了一系列政策法规,为档案数据共享利用提供制度保障,在此基础上,需要进一步完善档案数据共享利用政策法规框架。一是强化档案数据开放。开放是数据价值实现的重要前提【18】,需要加大档案数据资源开放力度,按照“先解密、后审核、再开放”的原则,加强档案部门、保密部门和档案数据形成单位的业务协同,建立健全解密流程与开放审核机制,促进档案数据在安全可控下最大程度开放;制定档案数据开放策略和开放目录,促进档案数据统一汇聚和有序开放,优先推动民生保障服务相关领域的档案数据向社会开放;加强对开放档案数据的更新维护,不断扩大档案数据开放范围,促进数据资源动态更新,推动档案数据安全运行、有效共享。二是推动档案数据资源共建和协同共享。强化政策引领和机制协同,明确各部门档案数据共享方式和范围边界,厘清各部门档案数据共享的权利义务,建立政府和社会多元主体互动的档案数据采集制度;统筹推进档案数据基础设施建设,打造多级联动、统一规范的档案数据共享利用平台,推动跨部门、跨区域、跨行业档案数据管理系统互联互通和信息共享。三是促进档案数据安全利用。加强档案数据安全利用制度设计,增强档案数据深度挖掘与服务创新,鼓励和引导档案数据社会化开发利用,确保档案数据资源开发利用、共建共享安全运行。明确档案数据共享范围和使用权限,推动档案数据隐私保护和权益保障,强化对档案数据滥用、侵犯个人隐私和知识产权等行为的管理和惩戒,维护档案数据资源安全、网络安全和利用安全。建立健全档案数据共享利用标准体系。标准是档案数据共享利用的重要基础,迫切需要加强档案数据共享利用相关标准规范建设,构建内容完备、结构合理、协调一致、相互配套的档案数据共享利用标准体系,实现对档案数据资源开放、共享、利用的规范化管理,解决因技术不同、格式不一致、系统不兼容等导致的数据融合融通困难等问题,充分发挥标准在推进档案数据共享利用中的保障作用。一是管理标准。制定档案数据共享利用管理标准,明确档案数据共享利用的职责权限、管理模式、安全保障、组织架构,规范多主体参与档案数据共享利用的行为方式与协作机制;建立档案数据共享利用评价指标体系,强化服务流程管理和考核评价。二是技术标准。制定档案数据共享利用技术标准,首先是明确网络传输、系统分级保密、内外网和局域网控制、网站门户运维等基础设施要求;其次是规范档案数据共享利用平台,包括平台架构功能、交换访问接口、部署模式、系统整合、业务衔接、数据流转监控、运行服务等内容,建设上下联动、纵横协管、安全高效的规范化标准化平台,推动档案数据统一汇聚、资源整合和集中开放;最后是档案数据开发利用,包括云计算、大数据、区块链、人工智能等现代信息技术在档案数据中的应用。三是资源标准。制定档案数据共享利用资源标准,推进档案数据采集接收、组织描述、著录标引、交换共享、流通传输、分级分类、访问利用等标准制定和实施,统一档案数据生成格式和元数据格式,规范档案数据操作处理程序,确保档案数据来源可靠、程序规范、要素合规、质量上乘,建设形式多样、内容丰富、结构合理、覆盖广泛、及时更新的档案数据仓储,为实现同一标准采集数据、同一源头提供数据、同一系统共享数据打好基础【19】。

3.2创建档案数据共享利用机制

档案数据共享利用涉及主体多、应用范围广、协调难度大、技术要求高,围绕档案数据开放流通、共建共享、开发利用、安全监管等内容,从管理、组织、人才、评价等方面创建档案数据共享利用机制,加强档案部门、数据管理机构、社会组织、信息技术企业、公众等多元主体的协作,推进档案数据共享利用规范开展、高效运行。建立档案数据共享利用协同管理机制。建立档案部门主导,多主体协同共治的管理机制,是档案管理走向档案治理的时代要求,需要建立档案数据共享利用协同管理机制,加强部门协同、区域协同、行业协同,鼓励、引导、规范社会力量参与档案事务【20】,发挥多主体资源、技术、智力等优势,提高档案数据开放共享程度,创新档案数据开发形式,提升档案数据知识化智慧化服务能力与水平。第一,档案部门在档案数据共享利用中扮演“元治”角色,发挥主导作用。多主体协同共治并非无组织、无秩序,而是在档案部门主导下的多主体协同合作,从而保障共享利用的有序进行【21】。档案部门需要加强统筹谋划和业务指导,充分发挥档案数据资源建设、质量管控、平台搭建、安全保障等方面的主体作用,制定档案数据共享利用相关政策法规和标准规范,培育社会组织和公民个人参与档案数据共建共享,为档案数据社会共建、协作开发、全民共享营造良好环境,构建上下贯通、执行有力、运行通畅的档案工作体制机制。第二,政府机构、数据管理部门、社会组织等多元主体是档案数据共享利用的重要参与者、建设者,需要发挥各自优势,通过多渠道、多方式、多手段参与共建共享,形成多元主体协同互动的档案数据共享利用新格局。第三,社会公众是推进档案数据共享利用的重要力量。公众是档案数据的重要持有者和档案数据共享利用的重要受众者,对于共享利用需求、效果呈现等更具发言权,可通过志愿服务、众包众创等方式参与档案数据共建共享和开发利用,推动档案数据建设的社会化和民主性,拓展档案事业多维空间。构建档案数据共享利用组织保障机制。档案数据共享利用的有效开展离不开科学合理的领导机构和组织架构,协调各方关系,强化资金保障、政策支持和技术应用,推动形成职责明晰、协同共进、立治有体、施治有序的工作格局。建立健全档案数据共享利用组织保障机制,明确职责,理顺关系,加强统筹协调和战略规划,强化顶层设计、制度配套和资金投入,科学设计档案数据共享利用的整体框架、实施路线和行动方案,按照“谁主管,谁提供,谁负责”的原则,抓好措施落实和安全保障。具体而言,发挥国家档案局总揽全局、协调各方的核心领导地位,成立档案数据共享利用领导小组,负责档案数据共享利用战略规划和标准制定;地方各级档案主管部门组建实施小组,专门负责监督、指导和推进本行政区域内档案数据共享利用活动开展。此外,档案部门需要积极融入政府数据开放共享、开发利用等治理活动,加入政府数据管理委员会,形成数据治理高端对话机制【22】。实施内外联动的人才培育机制。人才是档案数据共享利用的核心力量,加强档案数据共享利用专业人才培养,创新人才培育模式,建立健全多层次、多类型的档案数据管理人才培养体系,能够有效提升档案部门数据管理和档案数据共享利用能力。一是强化高校档案数据管理专业人才培养,创新档案专业人才培育机制,增强人才培养的针对性和实践性,培养适应大数据时代档案管理的复合型人才,助推档案数据共享利用科学高效开展。二是提升档案部门管理人员数据技能。大数据背景下开发利用海量档案数据资源,对档案工作人员的专业素养、职业技能提出更高要求,档案部门需要转变理念,强化数据意识和信息技能,推动档案管理人员数据管理能力提升。三是面向社会开展档案数据共享利用宣传教育。社会民众是档案数据共享利用的重要主体,需要充分利用全媒体、自媒体、新媒体等融媒体,搭建多层次、立体化的宣传平台,面向大众开展档案数据共享利用宣传教育,提升社会民众档案数据共建共享能力。落实档案数据共享利用评价机制。建立结构合理、内容完善、指标科学的档案数据共享利用评价机制,明确档案数据共享利用评价原则、评价方法和评价方式,有助于合理衡量档案数据共享利用成效、掌握用户体验,在效益反馈中不断改进档案数据共享利用服务策略,提升档案数据共享利用运行效果,提高档案数据服务能力与水平。在档案数据共享利用评价过程中,应坚持科学实用、系统规范、动态灵活、针对有效、可操作性强的评价原则;为保证评价结果的科学性、全面性和客观性,可综合采用定量评估、定性评估、实地调研、平台监测、组织访谈、问卷调查和第三方评价等评价方式。根据国家标准《GB/T38664.3-2020信息技术大数据政务数据开放共享第3部分:开放程度评价》,结合档案数据共享利用实践,构建出档案数据共享利用评价指标体系,如表1所示。档案数据共享利用评价指标体系涵盖数据资源、平台设施、安全保障、管理机制和应用成效五个一级指标,各一级指标根据需要设置相关二级指标。数据资源主要对开放档案数据涉及的数量、种类、质量等内容进行评价;平台设施主要对档案数据共享利用平台交互访问、运行服务等内容进行评价;安全保障主要对档案数据安全防护能力的有效性进行评价;管理机制主要对档案数据共享利用战略规划、体制机制、标准规范等内容进行评价;应用成效主要从档案数据满足利用需求角度进行评价。根据各指标在档案数据共享利用中的重要性赋予相应权重,在实际操作中可结合现实状况进行动态调整,综合打分、客观评价,以评促建、以评促改、以评促优,推动档案数据开放共享和开发利用。

3.3打造全国档案数据共享利用平台

目前,国家正在积极打造数据资源开放共享平台,推动数据资源共建共享与开发利用,助力数字中国、数字社会、数字政府、数字经济建设。平台建设是档案数据共享利用的重要载体和关键渠道,为档案数据资源共享交换提供支撑。大数据时代,档案数据成为档案信息资源的重要形态,建设档案数据共享利用平台是展现档案数据开发成果、释放档案数据价值潜能、满足用户知识信息需求的重要方式。为此,需要遵循“需求导向、集约建设、安全可控、便捷高效”原则,从国家、地区多层面共同推进档案数据共享利用工作,运用现代信息技术,整合集成相互独立、保存分散的档案数据资源,打破“各自为政、烟囱林立、数据壁垒”,推动与业务办公系统、档案管理系统有效衔接,形成覆盖全国、统筹利用、统一接入、互联互通的档案数据共享利用平台,实现档案数据跨层级、跨区域、跨系统、跨行业、跨部门共享利用。建设方式:分布构建,逐步集成。为促进档案数据互联互通与开放共享,需要采用分布设置接口、逐步集成资源的建设思路,构建物理分散、逻辑集中、快速链接、高效搜索的档案数据共享利用平台,实现分布性和集中性有机统一。分布性体现在物理层面,即档案数据来源于不同站点的档案数据库;集中性是从逻辑层面将地理分散的站点进行连接,整合集聚来源广泛、分散存储的各类档案数据资源,依据“统一管理、分级负责”的模式对平台业务活动进行管理,由各省级档案主管部门逐步推动本省内有条件的档案馆加入平台,最终实现全国各级档案馆全部接入【23】。建设落点:形成多元档案数据资源库。档案数据共享利用平台建设,需要数量丰富、类型多样、结构优化、质量上乘、特色鲜明的档案数据资源仓库支撑。根据当前档案数据利用需求特征,运用语义挖掘、关联集成、聚类分析等技术手段,通过统一交换,对各站点数据库中符合特定主题的档案数据资源进行提取、汇聚和整合,形成以政务档案数据资源库、民生档案数据资源库和专题档案数据资源库为主的多元档案数据资源库群。建设成效:搭建档案数据共享利用平台。大数据环境下,档案数据共享利用强调内容丰富性、功能便捷性、数据实时性,追求基于档案数据内容深度挖掘的知识化智慧化服务。为此,需要以多类型档案数据资源库为基础,建立相关工作管理制度和技术标准规范,运用“Web数据挖掘技术,全文检索技术,Push技术,异构数据库整合技术,智能技术,知识仓库技术”【24】,从资源层、处理层、服务层建设统一联动的档案数据共享利用平台。一是资源层。“资源层是知识服务平台的基础设施”【25】,是档案数据共享利用平台建设的核心要素,需要多渠道、多方式、多路径汇聚档案数据资源,形成全国档案数据共享利用资源池。二是处理层。处理层是档案数据共享利用平台建设的关键环节。处理层建设的主要任务是通过一系列技术手段,对档案数据资源进行数据分级、脱敏清洗、安全控制,对数据颗粒的知识单元进行提取、关联和分析,使档案数据库转化为信息库、知识库。三是服务层。档案数据共享利用平台服务层应具有信息查询与数据获取、数据分析与可视化、文化传播与知识供给、互动参与与反馈评价等功能,可通过档案网站、移动终端、微信公众号、应用小程序等途径查询利用,实现一窗受理、一网通办,提供便捷化、丰富化、智慧化的档案数据服务,使用户通过检索得到的不再是简单的档案目录信息,而是经过系统整合的全文信息和知识集合,提升用户体验满意度。借助平台的互动功能,引导行业组织、技术企业、社会公众对档案数据进行研究、分析、挖掘,推动档案数据创新开发和融合应用。如2022年7月6日,全国档案查询利用服务平台正式上线,全国档案查询利用服务平台是依托互联网,为社会公众提供档案查询利用的跨区域、跨层级的公共服务平台。建设全国档案查询利用服务平台,建立便捷的档案信息资源共享利用联动新机制,实现全国档案信息共享利用“一网通办”【26】。

3.4推动档案数据深度开发与智慧利用信息技术

在数据价值创造中提供了重要的驱动力【27】。当前,新一轮科技革命和产业变革席卷全球,新技术、新平台、新模式不断涌现,社会数字化、网络化、智能化水平不断提升,为档案事业转型发展注入新动力、新活力、新潜力,需要积极借助大数据、人工智能、数字孪生、知识组织等现代信息技术,对海量数据资源进行深度分析、知识聚合、动态呈现,在人机物三元智慧融合中不断增强档案数据利用能力和服务能力【28】。数据挖掘与可视化。档案数据挖掘,即从档案数据中挖掘知识信息。大数据挖掘技术有效地解决了数据和知识之间的鸿沟,是将数据转变为知识的有效方式【29】。通过对类型多样、来源广泛的巨量档案数据进行格式转化、语义分析、关联聚合,深度挖掘档案数据蕴含的信息、知识,将档案数据隐性价值转化为显性价值,充分释放档案数据潜能。数据可视化技术是指运用计算机图形学和图像处理技术,将数据转换为图形或图像在屏幕上显示出来,并进行交互处理的理论、方法和技术【3】。借助VR、AR、MR等数据可视化技术,对档案数据承载的知识信息以清晰明朗、高效直观的方式进行动态表达、多维呈现,发现档案数据背后的洞见与规律,创新档案服务方式,提高档案资源利用效率。智能分析与智慧服务。人工智能涉及计算机科学、数据科学、心理学、伦理学、哲学、传播学等不同领域,通过自然语言处理、语言图像识别、模式识别、深度学习、机器神经网络、专家系统、模拟算法、逻辑推理、智能聚合等技术方法,对人的意识、思维、行动进行仿真类比,探寻智能的实质,开拓人类智慧的全新空间。人工智能技术已应用到数据管理与档案管理中,在档案数据化处理、智能分析、智慧服务等方面前景广阔。借助语音识别、人脸识别、OCR识别、图像分析、篇章分析、语义理解、加工计算、自动标引、自动文摘、智能感知等技术方法,对纸质档案、照片档案、音视频档案进行识别分析、数据化处理、智能分类、编目著录、划控鉴定等,增强档案数据智能采集、智能捕获、智能处理、智能鉴定等智能化管理分析能力,提升档案数据运行效能。运用智能化挖掘开发工具,开展档案数据智能筛选、智能组配、智能推送、智能决策等服务,拓展档案数据智慧服务场景,发挥档案数据在预测分析、决策支持、战略咨询等方面的作用。通过智能匹配、智能拓展、智能运作等技术在档案数据检索中的应用,提高档案数据智慧检索能力,提升档案利用的精准度和快捷性;依托智能网络、智能交互、智能解读和智能研判技术,建立档案数据智能利用咨询系统,实现档案数据咨询服务自动筛选、自动推理、自动应答;通过手机档案馆等智能服务平台,开展档案数据菜单式、订单式和一站式服务,实现档案信息个性化、特色化、便捷化服务,随时随地方便用户利用档案数据资源【30】。数字人文与数字孪生。数字人文借助数字技术再现历史记忆、编织数字记忆,档案数据作为价值厚重的文化信息,为数字人文提供了丰富的人文资源【31】。通过对细粒度档案数据进行上下文识别、元数据标注、要素提取、静态关联、动态聚合、深度计算、语义重组、叙事化表现等,挖掘和串联档案数据知识单元,促进档案数据人文价值发挥。数字孪生是以数字化方式创建物理实体的虚拟模型,借助数据模拟物理实体在现实环境中的行为,通过虚实交互反馈、数据融合分析、决策迭代优化等手段,为物理实体增加或扩展新的能力【32】。数字孪生技术作为一种加速社会数字化转型的综合科技体系,对于推动智慧档案馆资源数据化、提供数智服务、构建智能运作模式等具有重要意义【33】。数字孪生的基础是数据和建模,从数据中挖掘知识,以知识驱动生产管控的自动化、智能化,是数字孪生技术应用研究的核心思想【34】。借助协同计算、虚实映射、技术迭代、系统交互、物联感知、模拟仿真等技术方法,形成资源丰裕、准确可靠、格式规范、传输稳定的档案孪生大数据,构建要素丰富、数据驱动、交互映射、智能可控的智慧孪生档案馆,发挥连接物理世界和信息世界的桥梁和纽带作用,形成与现实空间相互联通、平行存在的档案“元宇宙”,促进档案数据互联互通和共建共享,提供更加实时、高效、智慧的档案数据服务。知识组织与用户画像。知识组织是在信息组织的基础上,研究知识的获取、描述、整理、表达、控制、共享等整个知识组织过程的理论和方法,包括知识获取、知识表达、知识处理和知识共享四部分重要内容【35】。随着信息技术发展和社会进步,用户信息素养不断提升,知识需求日益增加,迫切需要提供档案知识化服务。档案部门需要以社会需求为导向,利用分词标引、自动摘要、编码分析、分类聚类、数据挖掘、语义网络、超媒体等技术方法,对档案数据资源进行描述加工、整序优化、集成处理、提炼开发,挖掘蕴含在档案数据中的隐性知识单元,并对这些知识单元进行整合、组织与管理,形成各类知识产品,促进知识交流、知识传播、知识共享、知识增值和知识再生产,发挥档案馆的知识管理、知识开发、知识导航和知识创新功能,成为政府决策、科学研究、技术创新的重要知识库。大数据时代充分挖掘发现用户的偏好、特征、需求等全貌信息有助于提升档案信息服务水平,而嵌入用户画像能精准捕捉用户信息、科学预测信息需求,为档案馆开展智能化档案信息服务提供方向【36】。通过对用户行为数据、网络浏览数据、档案利用统计数据等数据资源进行清洗转换、文本挖掘、标签抽取、分类描述、回归分析、相似度测算、模型建构等,在语义检索分析和用户行为理解的基础上,建构涵盖基本属性、行为特征、兴趣爱好和社交网络等内容的档案用户画像,掌握不同类型、不同群体的用户兴趣、习惯和利用需求,从而提供精准检索、自主推送、定点宣传、知识决策等定制化、个性化服务,改善用户体验,提升服务品质,拓展档案数据服务空间。

参考文献

1金波,杨鹏.大数据时代档案数据治理研究[J].档案学研究,2020(4):29-37.

2黄子林.档案信息资源开发[M].长沙:湖南科学技术出版社,1995.

3李红.数据库原理与应用[M].北京:高等教育出版社,2003.

4[美]DAMA国际.DAMA数据管理知识体系指南[M].DAMA中国分会翻译组,译.北京:机械工业出版社,2020.

5金波,添志鹏.档案数据内涵与特征探析[J].档案学通讯,2020(3):4-11.

6金波,晏秦.数据管理与档案信息服务创新[J].档案学研究,2017(6):99-104.

7李珂.提升档案信息化发展水平实现远程利用社会共享——河南省数字档案馆建设概述[N].中国档案报,2020-06-11(001).

8李明华.关于建立国家电子档案战略备份中心的提案[J].中国档案,2022(3):20.

9罗军.我国档案管理体制改革研究[J].档案学通讯,2009(5):46-49.

10郑鸥.加强档案信息资源整合势在必行[J].上海档案,2006(5):22-25.

12许茵.国家重点档案文件级目录题名著录问题探析——以全国民国档案文件级目录著录为例[J].档案学研究,2018(6):59-63.

13倪代川,金波.论数字档案资源数据化发展[J].档案学研究,2021(5):17-22.

14宗威,吴锋.大数据时代下数据质量的挑战[J].西安交通大学学报(社会科学版),2013(5):38-43.

15周俊.以整体智治消除基层“数据孤岛”[J].国家治理,2020(30):24-26.

作者:金波 杨鹏 邢慧 单位:上海大学文化遗产与信息管理学院 中国船舶工业集团公司

上一篇: 网络分裂断层对企业创新能力影... 下一篇: 新时代伟大变革中的会计发展
相关文章
精选范文
相关期刊