加快构建高质量人工智能大模型数据集

中国电子报、电子信息产业网中国软件评测中心杨璨庄金鑫范振锐

2024-07-25

人工智能作为引领新一轮科技产业革命的战略性技术和新质生产力重要驱动力，正在引发经济、社会、文化等领域的变革和重塑。2023年以来，以ChatGPT、GPT-4为代表的大模型技术因其强大的内容生成及多轮对话能力，引发全球新一轮人工智能创新热潮，随着技术演进、产品迭代的日新月异，大模型正在成为科技产业发展强劲动能。

大模型对数据数量和质量提出新要求

人工智能大语言模型的训练需要强大的高性能算力和海量训练数据供应，从行业发展前沿趋势来看，大模型训练使用的数据集规模呈现爆发式的持续增长。据工业和信息化部赛迪研究院发布的研究报告预测，到2024年年底我国将有5%~8%的企业大模型参数从千亿级跃升至万亿级，算力需求增速会达到320%。

公开资料显示，2018年GPT-1数据集约4.6GB，2020年GPT-3数据集达到了753GB，而2021年Gopher数据集已达10550GB，2023年GPT-4的数据量更是GPT-3的数十倍以上。同时，大模型快速迭代对训练数据的数据量、多样性和更新速度方面也提出了更高的要求。

大语言模型是基于注意力机制的预训练模型，足够多的用于自监督学习过程的基础训练数据是大模型区别于传统人工智能算法模型的主要特点，海量数据可以为模型提供更多的学习样本和更广泛的知识覆盖，有助于模型学习到更多的特征和关系。只有海量多源的数据支持预训练，大模型在后续的专门任务中才会表现出更强大的性能和更具启发性的生成能力。

数据的丰富性对大模型后续的泛化和涌现能力非常重要。丰富的数据可以为模型提供更多的学习场景和挑战，有助于模型学习到更复杂的特征和关系，从而提高其泛化能力。大模型的目标是能够适应各种不同的输入，并对未见过的数据进行准确的预测。通过使用多维度的训练数据，模型可以学习更广泛的上下文和语言规律，提高其泛化能力，节约资源和时间，使模型更具有实用性和可靠性。数据维度多样性的提升能够推动大模型从单一领域向多领域知识的跃迁，而非仅仅是数量的增加，如果是简单的同类型数据反馈，单条数据反馈和十条同类型数据反馈虽然在数据的数量上增加了10倍，但模型的智能并没有得到拓展和增加，因此数据维度多样性可直接提升大模型在跨领域知识的理解和应用的深度，实现了从单一领域向多领域知识迁移的质变。

数据的质量对模型的训练结果至关重要。数据存在大量的噪声、错误或冗余，模型可能会学习到错误的特征和关系，导致其性能下降。高质量的数据可以为模型提供更准确、更可靠的学习样本，有助于模型学习到更真实的特征和关系，从而提高其性能和泛化能力。

数据的时效性对于大模型的即时学习和适应能力具有显著作用。通过提高数据服务交付时效提升数据服务开发效率，实现大模型对新兴趋势和紧急事件的快速响应。

只有具备以上条件，大模型才能在训练过程中学习到更多的知识和规律，从而在面对新数据时表现出更好的性能和泛化能力。

积极打造高性能大模型算力集群

在当前的数字科技领域，算力的发展已经达到了万卡级别的庞大规模，即单体智算集群拥有上万个GPU计算节点。这种前所未有的强大算力为深度学习等复杂计算任务提供了坚实的算力支撑。目前，我国骨干厂商正积极探索打造高性能算力集群，并通过协同优化、工具支持等实现高效稳定的大模型训练，提高算力使用效率。

百度百舸2.0在计算、AI存储、AI容器等模块上增强能力、丰富功能，并发布了AI加速套件。AI加速套件通过存训推一体化的方式，对数据的读取和查询、训练、推理进行加速，进一步提升AI作业速度。为了提升集群通信效率，百度发布了弹性RDMA网卡，相比传统专用的RDMA网络，弹性RDMA网络和VPC网络进行了融合，使用户的使用成本更低，同时通信延时降低了50%以上。此外，百度在万卡集群的运维和稳定性方面也进行了大量优化工作，如通过自研的集群组网故障管理机制，降低了工程师在容错和故障恢复上的时间成本，优秀的运维能力和稳定性为大模型的训练提供了有力的保障。

腾讯云发布了新一代HCC高性能计算集群，用于大模型训练、自动驾驶、科学计算等领域。基于新一代集群，腾讯团队在同等数据集下，将万亿参数的AI大模型混元NLP训练由50天缩短到4天。其自研星脉高性能计算网络和高性能集合通信库TCCL，具备业界最高的3.2T RDMA通信带宽，在搭载同等数量的GPU情况下，为大模型训练优化40%负载性能，消除多个网络原因导致的训练中断问题。

浪潮信息AI团队在2023年相继研发了OGAI（Open GenAl Infra）大模型智算软件栈、源2.0大模型，从软硬协同层面去持续提升基础大模型的能力，同时通过开放算力发展生态去探索可能突破的场景。OGAI面向以大模型为核心技术的生成式AI开发与应用场景，提供从集群系统环境部署到算力调度保障和大模型开发管理的全栈全流程的软件，从而降低大模型算力系统的使用门槛、优化大模型的研发效率，保障大模型的生产与应用。

加快构建高质量数据集

首先，深入生产生活场景挖掘高质量数据集。数据是日常活动的科学记录，人工智能之所以能够发挥支撑和驱动数字经济的重要作用，本质上在于忠实而有效地处理现实数据。深入生产生活场景中挖掘高质量数据集，是数据驱动时代的关键任务。

以明确的目标为先导，通过精准的数据采集策略，从源头获取真实、全面的原始数据。在数据清洗与预处理环节，要运用专业技术和细致的分析，去除噪声、填补缺失值，确保数据的准确性和完整性。以制造业为例，企业可收集设备型号、维修记录等静态数据，以及温度、振动等实时动态数据，经过清洗和标注后，用于训练预测模型。数据集的划分同样重要，须确保训练集、验证集和测试集的合理分布，以充分验证模型的性能和泛化能力。此外，数据集的文档编写和元数据管理也不容忽视，它们为数据集的长期维护和更新提供了坚实的基础。

在实际操作中需要面对数据来源的多样性、数据质量的参差不齐、数据采集和处理成本的高昂问题，需要制定周密的数据采集计划，选择合适的数据源，并运用先进的数据清洗和预处理技术，以确保数据的准确性和一致性。同时，还需要注重数据的时效性和动态性，及时更新和维护数据集，以适应业务的发展和变化，从海量数据中提炼出有价值的信息，为业务决策和模型训练提供有力支持。同时，在数据集构建全流程过程中，人的因素同样重要。需要组建专业的数据团队，具备深厚的数据分析能力和丰富的业务知识，能够深入理解业务需求，从海量数据中挖掘出有价值的信息。与此同时，还需要建立科学的数据管理制度和流程，确保数据的安全性和隐私性，防止数据泄露和滥用。能够反映生产生活实际中深层次现实规律的数据是具有天然价值的，而对其进行科学的加工和处理则使其具备了工程上的利用价值，需要专门的团队以科学的态度、专业的能力和严谨的精神，不断探索和实践。

其次，利用人工智能技术构建高质量数据集。目前，利用现有人工智能技术构建高质量数据集仍是一项富有挑战性和发展前景的任务。通过充分发挥人工智能技术的优势，可以提高数据集的准确性、效率和可解释性，为人工智能应用的发展提供坚实的数据基础。

一是借助人工智技术的自动标注工具正在成为基础数据服务商和Al算法公司降低成本和提高效率的利器。首先，通过自然语言处理和机器学习技术，可以对大量的文本、图像、音频等数据进行自动标注和分类，从而快速生成带有标签的数据集。这种方法可以大大减少人工标注的成本和时间，同时提高标注的准确性和一致性。其次，人工智能技术还可以帮助进行数据清洗和预处理。利用数据清洗算法和异常检测模型，可以自动识别和修正数据中的错误、噪声和异常值，确保数据的准确性和可靠性。同时，通过数据增强技术，可以在不增加实际数据量的情况下，扩充数据集的多样性和泛化能力。此外，人工智能技术还可以支持数据集的动态更新和维护。通过监控数据源的变化和引入新的数据，可以及时发现和更新数据集中的过时信息，保持数据集的时效性和准确性。另外，利用自动化测试和验证技术，可以确保数据集的质量和性能在更新过程中得到保障。

二是利用现有大模型批量构建高质量数据。大语言模型凭借强大的上下文学习能力可以从示例样本和原始素材中快速构建出高质量的指令－输出对，形成种类多样、内容翔实的指令微调数据集，有力地提升了指令数据的数量、质量和可控性，基于这些指令数据微调后的模型，其性能表现也得到了大幅增强。

责编：莎莉

免责声明：凡注明为其它来源的信息均转自其它平台，由网友自主投稿和发布、编辑整理上传，对此类作品本站仅提供交流平台，不为其版权负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。若有来源标注错误或侵犯了您的合法权益，请作者持权属证明与本站联系，我们将及时更正、删除，谢谢。联系邮箱：gaochanggong@szw.org.cn

今日头条号

搜狐号

订阅号

服务号

加快构建高质量人工智能大模型数据集