中图分类号:G258.6 DOI:10.13366/j.dik.2023.05.039 引用本文:张彤阳,王楚涵,俞超,等.通往AI时代的科研文献数据集:特征规律与发展方向[J].图书情报知识,2023,40(5):39-49.(Zhang Tongyang,Wang Chuhan,Yu Chao,et al.Academic Literature Data Sets Towards the AI Era:Characteristics and Development Direction[J].Documentation,Information & Knowledge,2023,40(5):39-49.) 1 引言 随着数字化信息技术的迅速发展,日益增长的可用数据为各领域的科学研究带来了挑战与机遇[1]。白春礼院士在呼吁推动科学大数据国家发展战略时,提出系统分析大数据能够掌握管制信息的权力,促进对科学新现象的发现与对科学新规律的掌握[2]。而运用数学方法量化科学活动大数据中各变量,揭示科学发展进程、指导制定科学管理决策的科学计量学研究[3]是发挥出大数据价值的重要应用方向。数据集作为大数据的管理基本单位,其多元价值在满足科学计量学研究需求中的重要作用需要被全面理解。数据集(dataset)是指人类在不同社会活动中收集、整理和加工后的有一定范围、可形成完整描述的结构化数据集合[4]。随着数据集的不断完善和发展,科学计量学研究也得到了更好的支持。由于数据集是特定领域综合数据的集成[5],使用正确的数据集可以提升数据选择的准确性、数据获取的效率、适应各种科学计量方法与指标在大样本数据中的使用,从而更加全面深刻地评价研究对象的科学活动规律。近年来,用于支撑科学计量学各阶段量化分析和模型构建的各类数据集大量涌现。随着功能的不断改进完善,其可用性与受重视程度也在日益增高[1],已成为科学研究过程中的重要支撑条件。 人工智能(Artificial Intelligence,AI)是一门研究如何利用自动化系统执行人类智能任务的新兴技术科学[6]。自AI繁荣发展以来,人类智力与计算机技术相结合的算法模型实现了突破性地发展,机器学习、专家系统、自然语言处理等技术迭代兴起。其中,大数据在AI技术蓬勃发展过程中释放着基础支撑价值,是推动人工智能系统性能提升的核心因素。随着海量数据的加速聚集,新一代大数据技术的快速演进,构筑在大数据之上的人工智能也由此汲取到发展进步的内驱力量,而人工智能服务在转型升级的历程中也日益驱动着数据集发展创新的全过程,催生出数据集的新价值、新特征与新服务模式。这引导我们高瞻远瞩,在AI背景下进一步提升对数据集最新发展现状的认知,为数字学术基础设施的发展融入人工智能的新兴探测视角,为未来数据集的优化升级探索新的路径。
图1 不同年份发文量、使用数据集的文章数以及篇均数据集使用种数 Fig.1 The Number of Articles Published in Different Years,the Number of Articles Using the Data Sets in Different Years,and the Average Number of Data Sets Used in Per Article in Different Years 科学计量研究的开展离不开高质量的数据作为支撑,而人工智能在赋能数据集智能升级的过程中也进一步推动着科学计量研究的发展。本文通过采集和分析近五年科学计量学相关科研文献中的数据集实际使用记录,首先对数据集的被使用概况做整体统计分析,其次测定不同类型数据集的使用情况,并针对典型数据集具体测度分析相关功能指标,最后从学科视角出发,展望AI技术支撑下未来数据集的建设与应用方向。本文有助于理解数据集在科学计量研究过程中的重要作用,为开展科学计量研究提供数据集的选用依据,为未来数据集发展方向提供指引。 2 数据来源及数据集使用概况 2.1 数据来源 本文选取期刊《科学计量学》(Scientometrics)[7]作为数据源,考虑到此期刊具有显著的学科权威性,其收录的论文能够在一定程度上反映国际科学计量学的发展状况[8]。作者于2021年1月27日在WoS(Web of Science)[9]数据库中以出版物名称为线索进行信息检索,出版时间选择2016至2020年,最终检索到文献2,009篇。作者逐一阅读文献正文中与研究数据收集相关的内容,并人工识别、记录文献所使用数据集的名称。其中,1,522篇(占比约75.8%)论文所使用的数据集来源于公开可获得数据集,被选为研究的分析样本。 2.2 数据集使用概况 2016至2020年Scientometrics发表的论文总共用到了311种数据集,且数据集使用频次达到2,089次。由图1可见,以特定数据集为基础数据来源的发文量大体呈低速增长态势。特别地,2020年的发文量较前一年增长87%,且每年平均每篇文章使用的数据集数量维持在1以上,每一年使用了数据集的文章数量占当年总发文量的百分比维持在60%以上。上述数据不仅从文献数量上体现数据集在科学计量学领域的重要性在增强,也反映出近五年同一篇论文交叉使用多个数据集的研究现状。