当前位置:首页 > 报告详情

阿里云大数据AI一体化最佳实践_240419(1).pdf

上传人: 张** 编号:169032 2024-07-06 41页 4.28MB

1、DataFunConDataFunCon#20242024阿里云大数据阿里云大数据AIAI一体化最佳实一体化最佳实践(数据开发视角)践(数据开发视角)刘一鸣(合一)阿里云 自研大数据产品负责人ContentsContents目录目录大数据AI开发范式的变化阿里云大数据AI一体化架构演进Data+AI场景实践分享0101 大数据大数据AIAI开发范式的变化开发范式的变化Data+AI 典型开发生命周期DataData +AIAI数据预处理数据预处理对数据进行清洗加工、数据转换、特征选择、特征提取等数据准备数据准备对数据进行初步分析,了解数据分布及字段指标情况模型评估模型评估 将模型预测结果与实际

2、结果进行对比,从而得到模型的准确率模型部署模型部署对模型进行部署发布,从而实现模型流程化使用模型训练模型训练为达成高识别率的目标,使用大数据,找出最优配置参数模型开发模型开发选择多种数据挖掘技术(SQL、Python等)和工具进行模型创建以数据为中心的模型开发ModelDataModel-centric AIModelDataData-centric AISource:A Chat with Andrew on MLOps:From Model-centric to Data-centric AlData-centric MLModel-centric MLWorking on code is

3、 the central objectiveWorking on data is the central objectiveOptimizing the model so it can deal with the noisein the dataRather than gathering more data,moreinvestment is being made in data quality tools towork on noisy datainconsistent data labelsData consistency is keyData is fixed after standar

4、d preprocessingCode/algorithms are fixedModel is improved iterativelyIterated the data qualityData+AI 项目成功关键点算力(基础设施)数据(80%)模型(20%)大规模 CPU 算力 大规模 GPU 算力高速网络海量结构化、非结构化数据管理大规模数据处理模型训练、推理模型管理案例1:离在线一体的智能推荐系统用户行为日志实时计算Flink特征库批流统一样本生成(Flink)样本库批流统一样模型训练(PAI-TF)数据分析实时分析 Hologres批量分析 MaxCompute模型中心模型1模型n在

5、线预测模型部署模型验证离线计算MaxCompute案例2:知识库检索增强的大模型问答系统原始技术/产品文档MaxCompute/Hologres/DataWorks/PAI/Flink文本 TextCHUNKQ&ACHUNKQ&A创建embeddings知识审核Embedding ModelBEG/SGPT/text2vec文本提取PDFTXT数据整理格式统一产品标签QA提取/语义切换数据清洗超链替换完整问题 PAI能做什么idcontentembeddingdoc_ididPAI是阿里云0.1,-0.1,0.1PAIidmapjoin内存限制0.5,0.2,0.9MCidPAI可以帮助用户0

6、.8,-0.1,0.7PAIidHolo迁移数据0.6,0.9-1.1HoloHologres/Elasticsearch/FAISS上下文 PAI是什么+本轮query 它能做什么LLM(+SFT?)ChatGPT/Qwen/创建embeddingsEmbedding ModelBEG/SGPT/text2vec融合上下文问题改写向量检索Prompt Engineering超链提取/精准输出/推理部署结果流式/BladeLLMLLM(+SFT?)ChatGPT/Qwen/完整问题+相关知识基于1,2,3回答PAI能做什么LLM生成相关知识1.PAI是阿里云2.PAI可以帮助用户3.PAI支持

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要介绍了阿里云大数据AI一体化最佳实践,从大数据AI开发范式的变化、阿里云大数据AI一体化架构演进以及Data+AI场景实践三个方面进行阐述。 首先,大数据AI开发范式正在从以模型为中心转变为以数据为中心,数据质量的好坏直接影响大模型训练、推理的最终效果。其次,阿里云大数据AI一体化架构正在逐步演进,从MaxCompute 1.0到MaxCompute 4.0,逐步向智能化演进,构建AI时代数据基础设施。最后,通过PAI designer 完成对LLM数据处理、LLM模型训练、推理等Data + AI整体流程开发,利用MaxCompute海量弹性计算资源进行分布式、并发执行,极大提高数据处理执行效率。
阿里云大数据AI一体化如何提升数据处理效率? MaxCompute如何实现海量数据的高效处理? DataWorks Copilot如何助力数据开发与分析?
客服
商务合作
小程序
服务号
折叠