1、演讲嘉宾:赵喜生,腾讯机器学习平部1腾讯大语言模型应用场景2RAG技术原理及优化实践3GraphRAG在角色扮演场景中的应用4Agent技术原理和应用腾讯大语言模型应用场景1第一章节腾讯大模型应用场景内容理解内容生成智能客服文本创作内容扩写文案生成角色扮演开发Copilot定制翻译辅助评论文案润色素材生成输入联想文本审核图文匹配实体提取恶意判断标签提取诈骗识别文本摘要文本分类知识问答问题推荐用户引导情绪理解文档提取交互式任务智能客情代码评审低代码生成自动化测试代码生成Text2SQL自动补全优化建议角色扮演数字人情感陪伴游戏NPC剧情演绎游戏会话代码解读大模型应用技术SFTRAGAgentPr
2、os-特定领域微调后效果较好-端到端生成结果Cons-需要构建标签数据-训练和使用成本较高-存在大模型幻觉Pros-外部知识检索,实时性强,幻觉低-过程透明,可解释性强Cons-生成效果依赖于知识库质量和召回准确率-延时高Pros-具有自主性、交互性、适应性和推理能力-可处理复杂任务,支持多模态任务处理Cons-结果不稳定-模型训练优化成本高混元一站式大模型应用解决方案资源算力与存储资源混元一站式业务混元模型库TEG混元助手、工蜂CDG腾讯广告、FiTWXG搜一搜、企微PCG腾讯文档、QQIEG腾讯游戏、NPCCSIG腾讯云、腾讯会议Agent搭建模型开发数据管理(训练数据抓取/管理)模型训练
3、(Full_Finetune/LoRA/DPO/RLHF)模型评测(在线调试/多人众评)模型服务(模型部署/推理量化)插件管理搜索增强混元Embedding索引自定义插件网址解析实用工具安全审核代码插件混元Agent模板库混元Agent搭建场景应用Demo能力使用Demo角色扮演Demo智能问答Agent自定义流程编排角色扮演Agent混元Embedding服务向量计算任务EMB索引BM25检索RAG技术原理及优化实践2第二章节RAG技术介绍数据准备知识库构建知识召回生成增强参考外部知识基于事实无幻觉数据更新及时回复具有可解释性安全和隐私RAG技术原理向量计算QDoc腾讯成立于哪一年?腾讯是中
4、国领先的互联网科技公司,成立于1998年,总部位于深圳。旗下拥有众多知名产品,如社交应用微信和QQ,以及游戏、广告、金融科技、云计算等业务。腾讯致力于通过技术创新,为用户提供更好的产品和服务,同时也推动了整个中国互联网行业的发展。腾讯总部在哪里?腾讯旗下的主要产品有哪些?腾讯公司CEO是谁?QueryQA Knowledge BaseVector DatabaseRecalled DocsLLMRAG应用关键挑战o文档格式种类多样o布局格式复杂o公式、表格识别和提取o文本、图片、表格嵌套o不同格式的文本文档采用何种切分方式o如何确保文档切片的语义完整性o在没有QA问答对或只有少量QA问答对的情
5、况下,如何帮助扩充知识库o如何确保知识更新的时效性多格式内容提取文档切分知识库构建文档召回o如何保证召回内容的相关性o如何融合多种召回方式召回的文档o如何确保模型跟随指令o解决数据隐私、安全问题o如何提升模型回答的效果o如何让模型具备领域知识内容生成文档解析能够解析文档中的段落、表格、公式、图像、标题、页眉、页脚等多种版面元素支持元素多样覆盖论文、杂志、说明书、试卷、海报、PPT等众多场景应用场景广泛支持版面分析、元素排序、文字识别、表格识别、公式识别等多种算法能力。算法能力全面基于优图自研新一代多模态文档解析大模型,各版面元素解析准确率达到88%,效果业内领先。模型准确率高文档切分根据Mar
6、kdown原生标题分割文本内容,将相同标题级别的文本片段切分在同一个chunk中Markdown标题切分按照固定的文本长度切分文本,不同分块之间可以有固定长度重叠内容固定长度文本切分按照分割字符递归切分,递归分块使用一组分隔符以分层和迭代的方式将输入文本分成更小的块递归文本切分使用模型文档根据语义分割模型来切分文档中文语义切分离线知识扩充技术在用户提供了对的情况下,基于当前问题和上下文,为上下文生成更多可能的用户问题AugmentedQuestionGenerator直接基于原始文档生成可能的QA对DocQAGeneratorAtomic Units QA的方法首先对原始文本进行分块,然后将块