1、大模型时代软件供应链的效率与安全管理实践李威 JFrog目 录CONTENTS1.MLOps中软件供应链的管理痛点2.MLOps中软件供应链的引入与管理最佳实践3.大模型版本管理与治理最佳实践4.大模型安全风险治理5.未来展望软件供应链管理痛点PART 01AI的风险幻觉偏见恶意软件数据投毒版权恶意网址越狱间接提示注入恶意指令私人信息伪造来源数据科学家成为攻击目标JFrog 安全研究团队开发了扫描环境,每天多次严格检查上传到 Huggingface 的每个新模型https:/ 与传统软件研发的异同BuildDeployDataModelDeployData Scientist定义、标注和组织训
2、练数据Research Engineer开发模型算法,训练并分析模型DevOps实施、部署、监控和维护机器学习模型开发应用程序开发 ML ModelsSoftware Engineer编写和调试应用程序DevOps Engineer管理自动化以构建和部署Operations Engineer部署、监控和维护Code如今 AI/ML 模型版本管理的问题使用 S3 存储桶这会让数据科学家自行命名每个上传,这通常会导致命名不一致、File_Name_Final_Final_Final 难题,甚至丢失文件。重复存储,占用大量空间使用 Git数据科学家和工程师只需在 Main 分支上堆叠 Commit,
3、利益相关者可以看到以前的提交,但没有简单的方法可以知道他们每次提交会得到什么,因为名称只是一组随机字符。“基于 FTP/SVN 的手工作坊又回来了”软件供应链的引入与管理最佳实践PART 02Model is a Package!Model是基于算法训练数据生成的二进制文件,用于根据新数据进行推理。AI软件供应链的单一可信源AI团队使用 Artifactory 缓存和管理来自 PyPI、Pytorch 的包AI团队使用Docker或者OCI来管理ML的运行环境管理ML模型和其他制品的方式一样简单,仅需在现有流程上扩展一个包管理工具,流程可复用AI团队使用 Artifactory 缓存和管理 H
4、elm ChartsJFROG 模型管理lHugging Face 代理/缓存lHugging Face 本地模型存储lModels 和 Datasetsl开源协议扫描l恶意模型扫描l标准化 MLOpsl单一可信源DataTuningProduction or InferenceRemote RepoLocal RepoHugging FaceFine Tuned Models大模型版本管理与治理最佳实践PART 03AI/ML 模型版本管理1.更好的存储和性能,替换 FTP/S32.模型管理版本化3.元数据可视化4.存储空间可清理5.易于分享模型6.晋级模型,而无额外存储成本7.同步模型到生
5、产环境,而无额外网络成本8.模型安全扫描https:/ ModelModel原始信息训练数据集信息嵌式软件包匹配设备型号目标客户信息分发同步信息与MLFlow 集成删除实验后,一旦 MLflow 的垃圾收集器运行,它也会默认从其相应的 JFrog Artifactory 存储库中删除。也可以配置永久保留。此功能可有效管理您的存储资源。JFrog AISecOps 与Qwak集成JFrog 与 Qwak 集成的完整 AISecOps解决方案,可实现团队之间的无缝交叉协作。1.将所有模型、制品集中在唯一可信源中2.减少外部服务中断或消除公共存储库中模型或包版本的潜在风险3.管理和限制对外部私有或公
6、共存储库的访问,确保用户只能使用经过批准的源4.为利益相关者提供有关公司内部使用的内容的全面透明度并发下载可打满 80-100%带宽多研发中心Model管理NASMysql海外多地镜像联邦仓库Conda-locaPypi-localHuggingface-locaDocker-localGeneric-locaS3MysqlDCConda-locaPypi-localHuggingface-locaDocker-localGeneric-locaS3Mysql云Conda-locaPypi-localHuggingface-locaDocker-localGeneric-loca多地镜像联邦仓