贾育衡 – 微课程：⾯向国产化平台的⼤模型⾼效训练数据筛选策略

School of Computer Science and Engineering, Southeast University

课程简介：

国家《⼈⼯智能产业综合标准化体系建设指南（2024版）》提出，要加强⼈⼯智能关键基础、⽀撑技术与应⽤规范的系统布局。在当前⼈⼯智能由“模型驱动”向“数据驱动”加速转型的背景下，数据质量正⽇益成为影响⼤模型训练效率、模型性能和应⽤可靠性的重要因素。⾯对海量原始数据，冗余信息、标注噪声及潜在合规⻛险⼴泛存在，已成为制约⼤模型⾼质量发展的重要因素。与此同时，随着⼤模型训练对算⼒平台、训练框架、⼯程流程和评测体系提出更⾼要求，国产化算⼒平台及相关训练、评测⼯具链也在加快发展。因此，⾯向国产化平台研究⼤模型训练数据筛选策略，不仅具有鲜明的现实背景，也具有重要的教学与实践价值。

围绕⼤模型训练中的数据质量提升与效率优化，数据筛选已成为其中的重要环节，其关键在于在有限算⼒和训练资源约束下实现⾼价值数据的有效组织与利⽤。本课程依托课题组在最优化⽅法领域⻓期形成的教学积累和研究基础，将优化理论、算法设计与⼤模型数据筛选问题有机结合，帮助学习者形成较为系统的⽅法认识。同时，课题组与华为等单位保持合作，对国产化算⼒平台、训练流程及评测⼯具链具有⼀定实践基础，能够较好⽀撑课程相关内容的讲解与实践设计。

本课程共八个课时，围绕“大模型数据选择的效能优化与机理探究—国产开源训练框架与评测平台—数据选择训练测试实践”三部分展开。课程首先结合大模型训练场景，系统介绍数据质量问题的主要表现及其对训练效率、模型性能和结果可靠性的影响，讲解数据质量评估指标与数据选择的基本思路和前沿方法；随后引入国产开源微调框架 verl 和国产大模型评测平台 OpenCompass，说明数据筛选结果如何与训练、评测过程相衔接；最后通过数据选择实践以及训练评测实践，组织学习者完成从数据分析、样本筛选到效果验证的基本流程，形成较完整的实践认知。课程注重理论基础与平台实践相结合，旨在帮助学习者掌握面向国产化平台的大模型训练数据筛选方法，提升其在数据质量分析、训练优化和评测验证方面的综合能力。

适⽤对象:

⼈⼯智能、数据科学、⼤数据技术等相关专业本科⽣和研究⽣
对⼤模型训练数据治理、数据筛选和训练优化感兴趣的学习者
关注国产化平台训练与评测⼯具链应⽤的研究⼈员和⼯程实践者

学习⽬标:
完成本课程后，学习者将能够：

理解⼤模型训练中数据质量对训练效率、模型性能和结果可靠性的影响
识别噪声、冗余、低价值和潜在合规⻛险数据的主要特征
掌握数据质量评估和数据筛选的基本思路与典型⽅法
了解国产开源训练框架与评测平台在⼤模型训练中的基本作⽤
能够开展基础的数据选择、训练测试与效果验证实践

课程结构

第一部分：大模型数据选择的效能优化与机理探究

第一讲：大模型时代的数据观：效率、噪声与合规性 <课程链接>
介绍数据质量对模型性能、训练效率和结果可靠性的影响，分析噪声数据、冗余数据、低价值数据以及潜在合规风险数据对训练过程的制约作用，说明数据筛选在高效训练中的意义。
第二讲：数据可视化方法：洞察高维空间的奥秘
介绍高维数据降维与可视化的基本思路，帮助学习者从数据分布角度观察原始数据集中的冗余、偏差与结构特征，为后续数据筛选提供基础分析视角。
第三讲：多维度质量评估：构建科学的指标体系
对比传统统计指标与基于大模型的评估范式，从相关性、多样性、安全性、一致性等维度建立数据质量评估框架，为数据筛选提供量化依据。
第四讲：数据选择的前沿范式：从效能优化到原理剖析
介绍大模型数据选择的主要方法，讨论如何在有限预算下平衡数据的代表性、多样性、难度与训练成本，并理解数据选择对模型公平性、泛化性和安全性的影响。

第二部分：国产开源训练框架与评测平台

第五讲：verl：国产开源微调框架
介绍面向大模型训练与微调任务的 verl 框架，说明数据筛选结果如何进入实际训练流程，并帮助学习者建立从“筛选数据”到“组织训练”的整体认识。
第六讲：OpenCompass：国产大模型评测平台
介绍 OpenCompass 在大模型评测中的基本功能，说明如何利用评测工具比较不同数据筛选策略下模型表现的差异，建立“训练—评测—反馈”的基本意识。

第三部分：数据选择训练测试实践

第七讲：数据选择实践：从质量分析到样本筛选
结合具体实验任务，开展数据分析与筛选实践，识别数据中的噪声、冗余和分布不均衡等问题，并设计数据筛选方案，构建不同训练数据子集。
第八讲：训练与评测实践：从筛选策略到效果验证
介绍 OpenCompass 基于筛选后的数据子集开展训练与评测实验，比较不同筛选策略在训练效率、模型表现和评测结。