浪潮卓数大数据参编《人工智能高质量数据集建设指南》正式发布
近期,中国信息通信研究院人工智能研究所联合清华大学计算社会科学与国家治理实验室、中国人工智能产业发展联盟数据委员会发布《人工智能高质量数据集建设指南》(简称《指南》),旨在为业界建设高质量数据集提供有实操价值的指导和参考。浪潮卓数大数据作为重要参编单位,深度参与《指南》撰写,为推进人工智能数据基础设施建设贡献了扎实的实践经验和数智力量。

《指南》系统梳理了高质量数据集建设的背景,明确了高质量数据集的定义、特征、分类、建设主体以及“三大建设难点”,提出了人工智能数据工程的“五大核心要素”和企业建设高质量数据集“三步走”战略,分析了高质量数据集建设的核心技术,展示了各领域高质量数据集建设实践,并对未来高质量数据集建设的趋势进行了展望,为业界推进高质量数据集建设提供有力支撑。
作为国内领先的大数据服务运营商,浪潮卓数大数据以“DATA+AI”双能力建设为主线,聚焦数据价值释放与AI能力生产,创新推出“模数工坊”产品体系,以数据车间、训练车间、模型车间和智能体车间四大功能模块,推动行业数据集建设与行业智能体应用的规模化、模块化、智能化生产。其中,数据车间作为数据“生产中心”,可实现数据采集、清洗、标注与质检全流程作业,输出可追溯的高质量数据集。同时自主研发高质量数据集服务平台,面向AI企业、科研机构及数据产业链上下游提供数据集市、工具链、供需对接等服务于一体的综合能力,持续推动高质量数据集高效供给与产业应用深度协同。
基于海量数据资源优势与领先的技术能力,浪潮卓数大数据已构建覆盖全国3.7亿市场主体的企业征信数据集和覆盖全网150+电商平台的电商经济数据集,不仅为AI模型的训练与优化提供了坚实“养料”,更通过场景化应用推动金融、商务行业的数智化转型。
国家数据局局长刘烈宏指出:“‘人工智能+’行动到哪里,高质量数据集的建设和推广就要到哪里。”浪潮卓数大数据将继续积极响应国家政策号召,深化数据要素市场化实践,为构建合规高效、开放协同的人工智能数据生态持续输出“浪潮”智慧。