当前位置:首页 > 报告详情

郭红科-阿里云服务器智能异常调度系统及LLMOPS构建与实践.pdf

上传人: 张** 编号:182427 2024-10-14 27页 4.78MB

1、阿里云服务器智能异常调度系统及LLM OPS构建与实践郭红科 阿里云演讲嘉宾郭红科阿里云 高级开发工程师毕业于大连理工,一直从事AIOps领域相关工作,专注于日志异常检测、指标异常检测和根因定位等多个方向。21年加入阿里云ECS异常调度,致力于探究并实现人工智能技术在云计算场景下的创新应用,具有在ECS变更拦截、实时批量风险检测以及ECS性能诊断等关键场景中实现有效解决方案的实战经验。目 录CONTENTS1.阿里云智能异常调度系统介绍2.大模型时代对AIOps行业的革新影响3.ECS智能运维在LLM OPS下的创新实践4.总结&展望阿里云智能异常调度体系介绍PART 01异常调度复杂性500

2、0+集群1,000,000+设备 100,000,000+部件(CPUs,disks etc.)g8 通用型c8 计算型r8 内存型g6 通用型c6 计算型ARM计算gn7 GPUf5 FPGAgn6 GPUf3 FPGA异构计算EBM 弹性裸金属(神龙)SCC 超级计算集群裸金属&高性能计算g8 通用型X86计算c8 计算型r8 内存型g7 通用型c7 计算型r7 内存型sn2ne 通用网络增强sn1ne 计算网络增强se1ne 内存网络增强re7 内存增强hfc7 高主频计算型i4 本地SSD型d3大数据型hfg7 高主频通用型d2大数据型hfr7 高主频内存型d1ne大数据型i3 本地S

3、SD型数据库web服务器高性能计算深度学习智能体系架构图智能体系落地方法论 面向平台 锦上添花 指标异常检测 日志模式聚类 关联关系发掘 横向纵向 面向业务 雪中送炭 变更拦截 工单分类 性能诊断 大模型时代对AIOps行业的革新影响PART 02AIOps?MLOps?LLMOps?定义关键代表AIOpsAIOps是结合大数据和机器学习技术,去自动化IT运维过程,包括事件关联、异常检测和因果关系确定AI for Ops阿里云、必示MLOpsMLOps是设计、构建、启用和支持在生产中高效部署ML模型的过程和实践,以持续改进业务活动Ops for ML阿里云PAI、魔搭社区、Hugging Fa

4、ceLLMOpsLLMOps的意思是面向LLM的MLOpsOps for LLM阿里云PAI魔搭社区、Hugging FaceLLM for OpsAIOpsLLM OPS的行业的可能性道、法、术、器、势志模式提取 Prompt请对输入的log message进行模式提取,综合考虑日志文本,保留日志中的频繁信息,使用placeholder形式替换模式中的变量,Log messages:your messagesPattern results:输出日志模式请对给出一段时序序列,序列等距排列,请分析序列,找出其中可能的异常波动,波动的类型有突增、趋势上升等,请给出判断结果和异常趋势开始位置,下面是

5、一些例子:序列:1,2,3,5,6,7,8结果:趋势上升,0序列:1,2,3,2,2,3,9结果:突增,6序列:series结果:判断结果指标异常检测 Prompt通义千问百川智能Meta Llama通模型通用模型通模型领域模型LogPatternLLMTimeSeriesLLMEcsRcLLMLLM OPS的行业的可能性道、法、术、器、势RAG框架 Naive RAG 朴素的RAG Advanced RAG pre:索引(meta+index)检索(rewrite、hierarchical)混合检索 post:re-rank、compression Modular RAG 模块+模式:灵活、

6、按需图来源:Retrieval-Augmented Generation for Large Language Models:A SurveyLLM OPS的行业的可能性AgentLLMmemoryplanning tools分解 Chain of thoughts Tree of thoughts省 ReAct Chain of HindsightClassic AIOpsRAGAPIs(app、sql)道、法、术、器、势对AIOps的革新影响决策AIOpsPro运维 采集个人观点:基于LLM的Ops是AIOps的加强版,并不是颠覆,主要体现在Ops的器和术上,让我们的检测工具更多样更锋利,

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要介绍了阿里云服务器智能异常调度系统及LLM OPS构建与实践。阿里云的智能异常调度系统能够处理5000+集群、1,000,000+设备和100,000,000+部件的异常情况。系统基于大数据和机器学习技术,自动化IT运维过程,包括事件关联、异常检测和因果关系确定。阿里云使用RAG框架,结合Naive RAG和Advanced RAG,实现检索和重写的功能。同时,ECS智能运维在LLM OPS下的创新实践包括QueryMemory、Query重写、意图识别、工具集调用和结果问答等方面。文章还讨论了AIOps、MLOps和LLMOps的定义和关系,以及大模型在AIOps和LLM OPS中的影响和挑战。最后,文章总结了LLM OPS在AIOps领域的应用和发展趋势。
"AIops与LLM OPS如何革新?" "ECS智能运维在LLM OPS下的实践" "大模型时代,AIOps将如何演变?"
客服
商务合作
小程序
服务号
折叠