1、基于容器构建的 AI 智能体基础设施落地实践演讲人:黄涛content目录01020304基于容器构建的Agent SandboxAgent Sandbox关键技术实现阿里云开源的OpenKruise AgentsAgent Sandbox生态05客户案例基于容器构建的Agent Sandbox阿里云容器服务智能体方案简图记忆库知识库Sandbox TemplatesCode InterpreterBrowserCompute UseSandbox实现环境隔离、安全执行、极致弹性MCP让工具使用更高效大模型Planning/Inference用户Or Agent(Agent 2 Agent)A
2、I AgentReACT/CoACT/MCP ServersMCP Client/MCP Protocol工具ACS/ACK PodAgent ResourceACS Sandbox记忆(短期记忆/长期记忆)知识(向量库/检索)MCP ServersSandbox(Code Interpreter/BrowserUse/Compute Use)ACK Agent ExtensionSandbox ResourceACSSandboxACSSandboxACSSandboxPodPodPodACRACK:阿里云容器服务Kubernetes版ACS:阿里云容器计算服务ACR:阿里云容器镜像服务数据
3、安全算力 要极致弹性能力1.模型动态控制工具的执行,存在更大规模的秒级交付弹性并发2.会话数量、会话并行度,加剧资源需求动态波动算力 需要运行在安全隔离的环境1.攻击者提示词诱导恶意行为模型动态生成不可预期代码;2.多会话数据需要严格隔离成本 要能合理控制1.AI Agent 长周期/多步骤/强状态存在跨多轮交互与工具调用2.多会话并存加剧沙箱规模膨胀3.不是所有会话时刻存活状态 要能有效保持大规模极速交付状态持久化智能体应用落地面临的业务挑战Sandbox:高安全性、状态保持场景复杂的沙箱生命周期1.模板:包括镜像、编排和可选的checkpoint2.Paused:资源占用最小化(无CPU等
4、消耗)3.Checkpoint:内存、临时存储和显存状态数据templateSandbox InstancePendingRunningPausedSandboxCheckpointCreatePauseResumeCheckpointGenerate new templateCompleted智能体应用落地面临的业务挑战Sandbox:高安全性、状态保持场景Agent Sandbox关键技术实现应对数据泄露、代码注入、网络攻击 等安全风险计算隔离CPU/内存相互隔离,互不干扰网络隔离禁用东西向网络南北向单向连通独立公网访问存储隔离共享存储的挂载点隔离鉴权隔离单Agent的独立rbac鉴权可观
5、测所有Agent行为可追踪、可审计Sandbox安全隔离的典型技术实现Sandbox资源管理的复杂度Sandbox运行时间短;对启动速度要求高Sandbox需等待人类或其它工具反馈,等待时间长,整体生命周期时长难预测Sandbox资源消耗难预测极致弹性的技术实现复杂度高K8S节点池业界典型方案:阿里云ACS Pod AWS Fargate Azure AKS Pod GKE Agent Sandbox业界典型方案:阿里云runD Kata/kata on PVM Firecracker gVisorServerless节点池Agent Sandbox 资源管理安全沙箱技术、二次虚拟化技术;计算
6、、存储、网络隔离等技术绝大部分Agent用户倾向优先使用Serverless以简化Sandbox使用复杂度大规模极致交付的容器资源管理技术 文件系统的数据保持 内存/显存数据保持firecrackergvisor两种开源方案的思路:Sandbox状态保持技术的实现CRIU、VM Memory Checkpoint等技术实现内存数据的快照点保留能力;NVIDIA/cuda-checkpoint等显存保持能力。容器rootfs数据,临时卷,持久化卷的数据检查点保留能力。隐藏隐藏字隐藏字ACS 全托管预热池2.指定Pool id自动匹配Sandbox Operator1.沙箱配置预定义Pool-1