美国国家科学基金会如何定义AI-Ready数据集
发布时间:
2024-12-19 16:52
修改时间:
2024-12-19 16:52
文章类别:
阅读次数:
47

在人工智能技术迅猛发展的今天,深度学习和生成式人工智能已成为科学研究中不可或缺的工具。数据是AI的燃料,自2018年美国政府在《联邦数据战略》报告中将数据视为与石油、钢铁一样的战略资源以来,各国政府对数据的重视程度不断提升,我国也在2023年建立了国家数据局。然而,正如一条广为人知的原则是“Garbage in, garbage out”所言,数据质量直接决定了AI模型训练的效果。据调查,数据工作者有80%的时间投入到数据整理(Data Wrangling)中,即数据的收集、清洗和转换过程。针对这一挑战,数据质量标准和AI-Readiness指标等概念逐步被提出,美国国家科学基金会(NSF)近日发布了《National AI Research Resource (NAIRR) Pilot seeks datasets to facilitate AI education and researcher skill development》(以下简称nsf2025),征集各领域高质量的AI-Ready数据集,以直接支持AI相关的教学、研究和模型训练。天文学作为一个观测和数据驱动的科学领域,近年来见证了AI大模型的不断涌现。建立一个高质量的AI-Ready基准数据集对于天文学领域至关重要,而nsf2025报告为我们提供了重要的参考。

由于AI-Ready程度(AI-Readiness)指标仍然在发展和完善,因此本文将首先回顾过去相关研究报告,探讨数据的AI-Readiness指标以及实现AI-Ready数据集的途径,最后介绍nsf2025中对数据发布机构提出的新的要求。

 

数据集的AI-Readiness有哪些指标?

AI-Ready的数据是指针对AI应用进行优化的高质量、可以即拿即用的数据。AI-Readiness在很多方面与FAIR原则(Findability, Accessibility,Interoperability and Reusability)是相通的。首先要解决研究人员大量时间用在数据检索、发现、转换上的问题,但除此之外,为了保证模型训练效果,AI-Readiness还包含了一系列数据质量方面的要求。美国国家海洋和大气管理局(NOAA)曾出版了一本《企业数据管理手册》,记录了该机构在数据管理方面的最佳实践。NOAA在本书中指出AI-Readiness包含以下要素:

数据质量

  • 完整性
  • 一致性
  • 无偏性
  • 时效性
  • 来源和可靠性

访问

  • 数据格式
  • 交付选项
  • 使用权(清晰、机器可读的许可证)
  • 安全/隐私(保护受限数据)

文档

  • 机器可读的元数据(关于数据的信息)
  • 数据字典(关于每个参数的信息)
  • 标识符(唯一标识数据集的编号/代码)

以上要素可作为数据发布者对自身数据AI-Readiness进行估计的参考依据。基于这些标准,一些自动化的工具也应运而生,如俄亥俄州立大学研发的AIDRIN(AI Data Readiness Inspector),可用于对数据集的AI-Readiness进行定量化计算。但是,大多数工具都仅限于表格数据,对图像等其他模态数据的AI-Readiness支持还不够,再加上各个学科领域的数据特点千差万别,这类工具给出的结果也只是仅供参考。

 

不同程度的AI-Readiness数据集有哪些特点?

数据集的AI-Readiness并非一个简单的二元概念,而是一个连续的“程度”。评估数据集的AI-Readiness是一项复杂的任务,涉及到多个维度的考量。那么,如何快速估计并确定数据集在AI-Readiness连续谱上的位置呢?基于前述指标,NOAA提出了一个四级成熟度模型,并详细描述了每个等级的特征,为数据集的AI-Readiness提供了一个快速评估的框架。以下是该模型的简要概述,可用于快速自我检查:

级别:0(Not AI-Ready)

  • 数据一致性角度:未进行内部一致性的检查
  • 数据访问角度:仅通过请求或订单系统对公众开放使用
  • 元数据角度:没有数据字典可用,或数据字典不是机器可读格式(例如PDF)

级别:1(Minimal)

  • 数据一致性角度:手动一致性检查
  • 数据访问角度:只有一个非程序化的访问选项,例如文件下载
  • 元数据角度:数据字典是机器可读格式(例如CSV、XML、JSON)

级别:2(Intermediate)

  • 数据一致性角度:一致性检查部分自动化,部分结果有文档记录
  • 数据访问角度:多种访问方式,且至少包括一个可编程访问方法(API)
  • 元数据角度:数据字典使用机器可读的元数据标准

级别:3(Optimal)

  • 数据一致性角度:完全自动化的内部一致性检查和报告;且考虑了与社区数据集的外部一致性
  • 数据访问角度:除多种交付选项(下载、API)外,还有基于云和高性能计算提供的数据即服务(DaaS)
  • 元数据角度:机器可读的元数据标准;参数与行业标准或其他机构数据集标准协调一致

通过这个模型,数据发布者可以快速评估其数据集的AI-Readiness水平,并据此采取相应的改进措施。

 

如何建立一个AI-Ready的数据集?

新罕布什尔大学空间科学中心的Bala Poduval等人发布的《AI-ready data in space science and solar physics: problems, mitigation and action plan》详细阐述了在空间和太阳物理领域构建AI-Ready数据集的实践,覆盖了从数据收集、数据校正和归一化,到数据标注和模型训练的全过程。

在数据收集阶段,遵循FAIR原则是构建AI-Ready数据集的基石。FAIR原则要求数据应具备可查找(Findable)、可访问(Accessible)、可互操作(Interoperable)和可重用(Reusable)的特性。这意味着数据需要以标准化格式存储,例如NetCDF、CDF、HDF或FITS,以便于不同研究者和AI算法能够轻松访问和使用。文章还建议包含质量标志,并根据NASA Space Physics Archive Search and Extract (SPASE)标准添加该领域的元数据标签。

在数据预处理阶段,对原始数据中的缺失值和异常值进行校正是至关重要的。数据校正的效果直接关系到机器学习算法的性能。对于多源数据的融合,各数据集的规范化同样重要,例如,需要对不同采样频率的数据进行重采样,以统一到相同的分辨率,确保数据的“即拿即用”。

数据标注是进行机器学习(尤其是监督学习)前的关键步骤。良好标注的数据不仅有助于数据的重用,对非领域专家也具有重要意义。文章强调数据标注应包括数据质量度量、数据预处理方法以及科学特征标签三个方面,以确保数据质量透明,并且具备可重复性和可用性。

在机器学习训练阶段,数据来源的标注对于增强模型的可解释性和可靠性起着重要作用。由于机器学习和AI模型对底层数据的变化非常敏感,文章强调了在机器学习过程中每一步的产品数据都需要标注数据来源(provenance),以提高模型的可解释性和可靠性。

空间科学和太阳物理作为天文学的相关学科,其在构建AI-Ready数据集研究和实践为我们提供了宝贵的参考,特别是在数据收集、预处理、标注以及机器学习模型训练等方面的具体指导和建议,有助于整个天文学界更有效地利用AI技术进行数据驱动的研究和探索。

 

NSF2025数据“征集令”

NSF此次数据征集特别强调了数据集在AI教育和研究者技能发展中的作用,同时,评价指标也更为全面和细致致,包括AI用例的挖掘、用户社区的构建、元数据及文档、用户支持与培训的提供、以及数据政策的遵循5个方面。然而,数据政策受到外部法律法规的约束,数据的AI用例也会受到学科领域等客观因素的限制,构建和发展用户社区、组织培训和用户支持则需要多方的努力和支持。作为数据发布者,唯有元数据、文档和数据质量是可以直接控制和改善的。因此,过去的大多数关于数据的AI-Readiness的研究都聚焦在这一方面。此次的数据征集无疑给数据发布机构提出了更高的要求,以下是对这些评价指标的详细描述:

  • AI USE CASES(AI用例):核心在于探究数据集能否创设出具有创新性的教育与学习契机,进而助力 NAIRR 成功构建其 AI 生态体系。尤其是在AI研究、人类健康、公共基础设施、先进制造、环境和气候挑战等高优先级领域。
  • USER COMMUNITY(用户社区):重点关注将特定数据集纳入 NAIRR Pilot 项目后,是否有利于培育一个多元化、多样化的用户社区生态。其中,数据集的实际用户数量规模以及用户群体的分布特征直观反映了数据集在用户层面的影响力与吸引力,构成了此项指标评估的关键要点。
  • USER SUPPORT AND TRAINING(用户支持和培训):尽管这一指标并非直接关联数据本身的固有属性,但完善的用户支持和培训体系对数据的传播与应用有着重要推动作用,因此也被列为一项关键的考察指标。
  • DATA POLICY(数据政策):主要围绕数据收集与传播流程的合规合法性展开审查评估,避免潜在的法律风险以及伦理道德层面的争议问题。
  • METADATA AND DOCUMENTATION(元数据和文档):这仍然是评价数据AI-Ready与否的核心特征,包括元数据的完善程度、数据检索和访问的难易程度以及数据质量等因素。

构建一个高质量的AI-Ready的数据集,这些要素缺一不可。与过去相比,AI-Ready的评价指标跳出到“数据之外”,给数据发布机构提出了更多的责任和义务。

 

总  结

随着人工智能(AI)在科学研究中的作用日益凸显,各个学科和机构在推动AI技术发展和应用方面均作出大量努力和实践。NOAA发布的《企业数据管理手册》和“AI-Ready Open Data”资源,为数据的AI-Readiness在数据质量、访问和元数据文档等方面提供了一系列评价指标。Bala Poduval等人详细阐述了在空间和太阳物理领域从数据收集、预处理、标注到机器学习训练的构建AI-Ready数据集全过程的实践。近日,NSF发布的AI-Ready数据的“征集令”,对AI-Readiness的评价指标更为全面:不仅关注数据本身,还把数据的应用场景、数据发布机构对用户的支持培训也纳入了评价标准。这些相关行业的标准和实践,对国家天文学科学数据中心及各个数据发布机构制定数据质量标准、建立AI-Ready的数据集和扩展数据集受众群体具有重要意义。

)
Yang Hanxi
(文章编辑:
我们使用cookies为您提供更好的体验。继续使用本网站,即表示您同意按照我们的Cookie 政策使用cookie。
接受