1、大语言模型结合企业知识库的私有化部署黄鸿波|鼎盛方圆科技演讲嘉宾黄鸿波鼎盛方圆科技 CEO鼎盛方圆科技联合创始人机器学习方向谷歌开发者专家前西山居AI技术专家2018年出版TensorFlow进阶指南 基础、算法与应用一书目 录CONTENTS1.为什么要用私有化大模型部署2.企业知识库的构建思路3.实际落地的方案为什么要用私有化大模型部署PART 01为什么要用私有化大模型部署为什么要用私有化大模型部署为什么要用私有化大模型部署行政法目录行政法目录为什么要用私有化大模型部署公有化大模型公有化大模型为什么要用私有化大模型部署结合企业知识库的私有化大模型结合企业知识库的私有化大模型公有化模型和私
2、有化模型的区别数据的安全性私有化知识私有化部署的大语言模型可以在用户自己的服务器或者私有云上运行,这意味着数据的安全性更高,因为数据不需要离开用户的控制范围。这一点对于那些管理着敏感信息的企业或组织来说无疑是极其重要的。公有化部署的大语言模型通常运行在开发商提供的云服务上,用户的数据会在使用过程中传输到这些服务器上进行处理。同时,用户在使用公有化部署的大语言模型时,提供的数据可能被用于改进模型训练和优化,虽然这些数据在大多数情况下都会被匿名化处理,但无法确保绝对不会出现数据泄露的情况。私有化部署的大语言模型可以更好地针对特定场景进行优化和定制化,可以针对企业或组织的特定需求进行定制和优化。例如
3、,可以针对特定的行业术语进行训练,以提高模型的有效性和准确性。公有云部署的大语言模型通常是通用型的,模型预训练的数据覆盖广泛,适应各种常见场景,但对于特定行业或特定任务的精确性可能欠缺。因为这种模型的训练数据和参数通常并没有针对特殊需求进行优化调整,它可能无法理解特定领域的复杂术语或符合特定业务需求的工作逻辑。数据的合规性通过私有化部署的方式更好地管理和控制数据获取和使用,以确保符合各类数据隐私和合规性要求。公有化部署的大语言模型在数据合规性方面可能面临挑战,因为模型运营商通常无法确保其数据处理和存储符合所有地区和行业的特定数据合规要求。在不同国家和地区,对于数据存储、处理和传输的法规要求可能
4、存在显著差异。企业知识库的构建思路PART 02企业私有化大模型部署方案企业私有化大模型部署方案企业私有化大模型部署方案企业私有化大模型部署方案企业私有化大模型部署方案大语言模型企业落地目前存在的问题1、只支持纯文本的输出2、输出的内容有“幻觉”3、对于特定领域的知识无法很好的回答大语言模型微调和改造方案只支持纯文本输出工作流管道链接和参照文本多模态模型我们设置了一个工作流管道,在模型生成文本描述图像的时候,令一个不同的服务根据描述来索引、搜索和返回适合的图片。同时,模型可以产生对于数据库中图像的详细描述。这个描述可以被用来查找并返回相应的图片。如果图片存储在网页或在线数据库中,模型可以生成包
5、含图片链接的文本。用户可以通过链接来查看图片。采用这种方式,我们可以将图片存储在oss上,然后再在对模型的输出结构进行修改,使其输出相应的链接,然后再让前端渲染。训练一个多模态模型(处理和产生不同类型数据的模型,例如文本和图片),然后使用多模态模型直接进行图像的输出。大语言模型微调和改造方案对于特定领域的知识无法很好的回答与特定领域知识库建立联系预处理和清洗数据精准检索将模型与特定领域的知识库(例如医疗、计算机科学、法律等)进行链接,让模型在需要回答相关问题时可以从中检索到必要的信息。数据预处理是任何AI项目的关键步骤。需要清洗和整理你的知识库,使其能为模型提供清晰、丰富、准确的信息。同时,确
6、保知识库数据和模型可以兼容。在模型生成回答之前,先对相关的知识片段进行检索。这可以通过BM25或向量搜索等技术实现。这一步会从知识库中提取有助于回答问题的文档或段落。微调和优化为了让模型更好地理解和生成特定领域的内容,我们需要大量的训练和微调。这里需要注意的是,我们需要在确保模型不会做出伤害性言论或生成不准确信息的前提下进行训练。大语言模型微调和改造方案输出的内容有“幻觉”生成之前生成过程中生成之后LLM-Augmenter:当接收到用户查询,该框架首先从外部知识中检索证据并构建证据链。然后,使用整合证据的提示向GLM4提问,生成基于外部知识的候选响应。