A3--韩雨轩--AI数据资产体系建设:从数据处理到模型评估的全生命周期闭环.pdf

编号:991628 PDF 41页 13.71MB 下载积分:VIP专享
下载报告请您先登录!

A3--韩雨轩--AI数据资产体系建设:从数据处理到模型评估的全生命周期闭环.pdf

1、AI数据资产体系建设:从数据处理到模型评估的全生命周期闭环韩雨轩 阿里巴巴国际商业数字集团/AI Business 数据科学技术专家01020304AI时代下传统数据架构面临的挑战如何从0到1构建AI数据资产?贯穿训练语料、模型迭代、模型评估的AI数据典型应用场景AI时代下传统数据架构面临的挑战大模型时代下的AI发展趋势Transformer 架构通过自注意力机制革新了NLP,提高了模型性能和训练效率,奠定了如BERT和GPT等先进模型的发展基础,并广泛影响了其他领域。OpenAI公司发布了ChatGPT,引发了业界对生成模型潜力的高度关注,并掀起了大模型研发的新浪潮。Prompt工程、RAG

2、和工具调用成为AI领域的热门研发方向,为LLM的实际业务应用开辟了更广阔的可能性。谷歌公司推出了Gemini-1.0多模态大型模型,重新点燃了业界对多模态模型研发的热潮,同时为AI应用和Agent系统开创了新的潜在机遇。2017&2018年Transformer架构Anthropic公司发布了Claude-3.5-Sonnet的Computer Use能力,为Agent系统提出了新的可能性。2022年11月大语言模型问世2023年初AI业务应用2023年12月多模态大模型2024年10月GUI Agent业务需求、产品形态到研发范式的演变大模型时代下的AI数据需求数据维度多模态文本、图片、音频

3、、视频、跨模态异构PDF、DOC、EPUB、HTML、WAV等多种类书籍、代码、文档、网页、对话等海量文本:通用类达到10T Tokens、图文:10亿张跨领域电商、医疗、金融、法律、科学等低资源中小语种、科学、数学能力等稀缺数据多诉求预训练、微调、知识库、Agent等多数源互联网、私域、采购、合成等大模型时代下的AI数据需求Zhou,X.,He,J.,Zhou,W.,Chen,H.,Tang,Z.,Zhao,H.,Tong,X.,Li,G.,Chen,Y.,Zhou,J.,Sun,Z.,Hui,B.,Wang,S.,He,C.,Liu,Z.,Zhou,J.,Wu,F.(2025).A Sur

4、vey of LLM$times$DATA.arXiv preprint arXiv:2505.18458.传统数据架构面临的挑战l以数据仓库和数据中台为代表的传统数据架构主要处理结构化数据,难以满足大模型时代对非结构化数据的处理需求。l相比结构化数据,非结构化数据处理更具有挑战性,对云计算和存储资源的需求也更加多样化。l在数据处理基础上,大模型的训练、推理和评测进一步加深了系统复杂度。传统数据架构面临的挑战l为了快速响应非结构化数据需求,我们不得不探索全新的数据研发模式。l短期内效果显著,能够快速获得成果,但随着时间推移,弊端逐渐显现:技术债不断累积,维护成本持续攀升。将实践经验抽象为AI数

5、据资产体系如何从0到1构建AI数据资产?传统数据架构带来的启发l多源数据统一存储、计算、管理和使用;数据处理与使用全流程可溯源;数据和处理函数按类型分域;训练和评测数据回流。AI数据资产体系数据技术体系AI数据资产体系数据集成与标准化l建立全流程可溯源的数据处理链路,涵盖数据获取、解析、内容标准化与打标各环节。数据样本在整个链路中保持一一对应关系,确保信息完整性,不进行任何预先过滤。l在保持原始数据完整的基础上,通过数据打标对内容和质量进行量化分析,为后续训练集构建提供灵活的筛选配置依据。AI数据资产体系数据集成与标准化:示例AI数据资产体系数据去重l重复数据通过造成数据不平衡和向模型引入偏差

6、,从而降低模型性能。l去重的维度可以是:句子级别、段落级别、文档级别、数据集级别和多个数据集组合级别。l近似哈希去重:如MinHash通过为每个数据项生成多个哈希值并保留最小值作为签名,然后比较不同数据项签名的相似度来快速识别和去除重复数据。l语义去重:涉及语义向量化和聚类,向量化模型和聚类算法对去重效果起到重要影响。AI数据资产体系数据集构造:背景l假设你是一名数学老师,你会为你的学生选择课件A还是课件B?为什么?AI数据资产体系数据集构造:背景l假设你是一名数学老师,你会为你的学生选择课件A还是课件B?为什么?AI数据资产体系数据集构造:标准l将教学过程类比于模型训练:课件设计相当于构造训

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(A3--韩雨轩--AI数据资产体系建设:从数据处理到模型评估的全生命周期闭环.pdf)为本站 (可不可以) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠