《A3--韩雨轩--AI数据资产体系建设:从数据处理到模型评估的全生命周期闭环.pdf》由会员分享,可在线阅读,更多相关《A3--韩雨轩--AI数据资产体系建设:从数据处理到模型评估的全生命周期闭环.pdf(41页珍藏版)》请在三个皮匠报告上搜索。
1、AI数据资产体系建设:从数据处理到模型评估的全生命周期闭环韩雨轩 阿里巴巴国际商业数字集团/AI Business 数据科学技术专家01020304AI时代下传统数据架构面临的挑战如何从0到1构建AI数据资产?贯穿训练语料、模型迭代、模型评估的AI数据典型应用场景AI时代下传统数据架构面临的挑战大模型时代下的AI发展趋势Transformer 架构通过自注意力机制革新了NLP,提高了模型性能和训练效率,奠定了如BERT和GPT等先进模型的发展基础,并广泛影响了其他领域。OpenAI公司发布了ChatGPT,引发了业界对生成模型潜力的高度关注,并掀起了大模型研发的新浪潮。Prompt工程、RAG
2、和工具调用成为AI领域的热门研发方向,为LLM的实际业务应用开辟了更广阔的可能性。谷歌公司推出了Gemini-1.0多模态大型模型,重新点燃了业界对多模态模型研发的热潮,同时为AI应用和Agent系统开创了新的潜在机遇。2017&2018年Transformer架构Anthropic公司发布了Claude-3.5-Sonnet的Computer Use能力,为Agent系统提出了新的可能性。2022年11月大语言模型问世2023年初AI业务应用2023年12月多模态大模型2024年10月GUI Agent业务需求、产品形态到研发范式的演变大模型时代下的AI数据需求数据维度多模态文本、图片、音频
3、、视频、跨模态异构PDF、DOC、EPUB、HTML、WAV等多种类书籍、代码、文档、网页、对话等海量文本:通用类达到10T Tokens、图文:10亿张跨领域电商、医疗、金融、法律、科学等低资源中小语种、科学、数学能力等稀缺数据多诉求预训练、微调、知识库、Agent等多数源互联网、私域、采购、合成等大模型时代下的AI数据需求Zhou,X.,He,J.,Zhou,W.,Chen,H.,Tang,Z.,Zhao,H.,Tong,X.,Li,G.,Chen,Y.,Zhou,J.,Sun,Z.,Hui,B.,Wang,S.,He,C.,Liu,Z.,Zhou,J.,Wu,F.(2025).A Sur
4、vey of LLM$times$DATA.arXiv preprint arXiv:2505.18458.传统数据架构面临的挑战l以数据仓库和数据中台为代表的传统数据架构主要处理结构化数据,难以满足大模型时代对非结构化数据的处理需求。l相比结构化数据,非结构化数据处理更具有挑战性,对云计算和存储资源的需求也更加多样化。l在数据处理基础上,大模型的训练、推理和评测进一步加深了系统复杂度。传统数据架构面临的挑战l为了快速响应非结构化数据需求,我们不得不探索全新的数据研发模式。l短期内效果显著,能够快速获得成果,但随着时间推移,弊端逐渐显现:技术债不断累积,维护成本持续攀升。将实践经验抽象为AI数
5、据资产体系如何从0到1构建AI数据资产?传统数据架构带来的启发l多源数据统一存储、计算、管理和使用;数据处理与使用全流程可溯源;数据和处理函数按类型分域;训练和评测数据回流。AI数据资产体系数据技术体系AI数据资产体系数据集成与标准化l建立全流程可溯源的数据处理链路,涵盖数据获取、解析、内容标准化与打标各环节。数据样本在整个链路中保持一一对应关系,确保信息完整性,不进行任何预先过滤。l在保持原始数据完整的基础上,通过数据打标对内容和质量进行量化分析,为后续训练集构建提供灵活的筛选配置依据。AI数据资产体系数据集成与标准化:示例AI数据资产体系数据去重l重复数据通过造成数据不平衡和向模型引入偏差
6、,从而降低模型性能。l去重的维度可以是:句子级别、段落级别、文档级别、数据集级别和多个数据集组合级别。l近似哈希去重:如MinHash通过为每个数据项生成多个哈希值并保留最小值作为签名,然后比较不同数据项签名的相似度来快速识别和去除重复数据。l语义去重:涉及语义向量化和聚类,向量化模型和聚类算法对去重效果起到重要影响。AI数据资产体系数据集构造:背景l假设你是一名数学老师,你会为你的学生选择课件A还是课件B?为什么?AI数据资产体系数据集构造:背景l假设你是一名数学老师,你会为你的学生选择课件A还是课件B?为什么?AI数据资产体系数据集构造:标准l将教学过程类比于模型训练:课件设计相当于构造训