中图分类号:G270.7 我国学者对档案数据的关注可以追溯到20世纪后半叶的办公自动化时期,通常认为冯惠玲等[1]1992年发表的《档案工作现代化的重大课题——论档案计算机检索的数据准备》一文标志着国内档案数据研究的开端。高晨翔等[2]通过对1992年至2019年间国内档案数据领域学术文献的统计分析,认为我国学者对档案数据的理解呈现出明显的阶段性特征:办公自动化阶段(1992-2003)的档案数据与档案元数据相当;档案信息化阶段(2004-2011)的档案数据由档案元数据转向了文件与档案自身;到了大数据阶段(2012-2019),各类新兴技术对档案数据内涵与外延产生深刻影响,相关思考和讨论正在进行当中。2020年,金波等[3]综合国内多名学者的研究成果,将档案数据定义为“数据化的档案信息及具备档案性质的数据记录”,这是目前学界对档案数据最具代表性的理解。根据公开文献,“档案数据化”是在2008年之后伴随大数据技术潮流而出现的新术语,最初由档案信息化机构研究人员在总结实践经验的基础上提出。[4]2018年,钱毅[5]提出档案管理对象演进的“三态”(模拟态、数字态、数据态)和“两化”(数字化、数据化)学说之后,“档案数据化”成为理论界和实践界共同关注的热点问题,被誉为档案信息化建设的下一个“风口”[6]。由此可见,“档案数据化”是建立在近三十年的档案数据研究基础上的一种面向人工智能时代的档案信息化建设新范式,是在高度复杂的社会和技术环境当中孕育和发展起来的学术新概念,无论是各个发展阶段人们对档案数据理解所形成的惯性思维,还是大数据、人工智能等新兴技术环境下档案数据表示和实现的新模式,都会对“档案数据化”的内涵产生非常显著的影响。尤其需要注意的是,中文语境下的“数据”一词语义极为丰富,使用不同的义项则意味着“档案数据化”的内涵会有较大的差别。即使人们对“数据”的理解视角一致,如果其指代的对象属于不同类型的档案数据也会呈现出差异较大的解读方式。上述问题导致与“档案数据化”相关的学术讨论一直被术语所困,难以取得共识和进展,迫切需要加以系统性梳理,以期建立共同的学术逻辑和秩序。 1 理解“档案数据化”的多重视角 中文语境下的“数据”(data)一词可以从四种视角进行理解,基于不同的视角,学界对“档案数据化”的解读也呈现出显著的多样化特征,现简要归纳和梳理如下: 第一种,数值型数据(D1),即采用数字和度量单位描述对象的数量特征。基于数值型数据视角的“档案数据化”(A/D1)通常是指强化档案统计工作,致力于用数值全面描述机构档案管理体系的状态特征及其变化趋势(例如文献7)。[7] 第二种,二进制数据(D2)。二进制数据是指计算机软件系统底层以0和1的组合形式存在的代码序列。此处的“数”特指二进制编码,相当于“数码”或“数字”。基于二进制数据视角的“档案数据化”(A/D2)通常是指通过扫描设备将纸质档案转换为数字化版本,同时对数字档案进行必要的元数据著录,其内涵几乎等同于“档案数字化”(例如文献8)。[8] 第三种,原料型数据(D3)。原料型数据是指供计算机从中分析和提炼有价值信息的所有基础性数字资源。基于原料型数据视角的“档案数据化”(A/ D3)通常是指将档案内容转换成为方便计算机处理的信息形式。文献9认为“档案数据化”(A/D3-1)是数字档案资源开发,即“档案部门以用户需求和业务需要为导向,将档案资源转换为可供阅读、分析和处理的档案数据资源的过程”[9]。文献10认为“档案数据化”(AD3-2)是档案文本结构化,即“通过对自然语言文本的标注,使原本只供用户阅读的档案文本具有被计算机自动分析处理的潜力”[10]。两者不同主要体现在时间点上,文献9强调在数字化档案基础上进行深度开发,文献10强调在数字档案形成之前进行结构化设计。 第四种,结构化数据(D4)。结构化数据是指参照某种结构模型对客观世界各类事物的属性或状态进行描述而形成的复杂信息体。结构化数据类型多样,基于结构化数据视角的“档案数据化”(A/D4)的内涵会随着所指代结构化数据类型的不同而变化。当结构化数据指代档案元数据时,“档案数据化”(A/D4-1)是指参照某种元数据规范对数字档案的外部属性和内容特征进行著录,通常属于“档案数字化”范畴(例如文献11)。[11]当结构化数据指代参照资源描述框架(Resource Description Framework,RDF)和语义网络模型构建的领域本体数据集时,“档案数据化”(A/D4-2)是指通过人工或自动抽取方式将档案的关键性内容信息描述为RDF数据并将其相互关联最终建成领域本体数据集的过程(例如文献12)。[12]然而,即使将“档案数据”理解为某种结构化数据,中文的“化”语义也比较丰富。“档案数据化”除了有将档案资源转化为数据形式之外,也有将数据转化为档案的意味。如果数据是指支撑业务部门运转的业务数据,“档案数据化”(A/D4-3)就是对业务部门产生和管理的各类结构化数据进行档案化管理,以保障数据的证据价值。文献13提出,“广义的数据化是要面对业务环境形成的各类数据体”[13],就包含了将业务数据纳入档案管理的含义。此外,科学数据归档管理相关研究中提及的“档案数据化”通常采用的也是上述视角(例如文献14)。[14]