1、TextIn文档解析与向量化技术加速大模型RAG应用落地演讲人:常扬目 录01RAG背景与问题02文档解析技术方案03向量化技术方案04实际场景产品实践RAG背景与问题01大模型应用的四大问题RAG技术定位领域知识缺乏信息过时幻觉安全RAG(Retrieval Augmented Generation)检索增强生成技术,利用检索外部文档提升生成结果质量领域知识和私有数据实时数据减少生成不确定性增强数据安全解决问题LLM应用知识数据来源模型幻觉用户上下文输入用户意图大模型知识外部文档RCG:Retrieval-Centric Generation 检索中心型生成将知识记忆与LLM生成分开,将检索
2、知识作为知识源。Fine-Tuned LLM:使用外部数据微调语言模型使LLM具备领域理解能力RAGRCG微调RAG标准技术流程知识库构建检索生成文本嵌入文本嵌入RAG问题:一周快速出Demo,半年产品不好用https:/ RAG产品如何快速达到可用、好用,开始增长?PMF:Product Market Fit 产品和市场达到最佳契合点,产品满足市场的需求,令客户满意,这是创业成功的第一步,业务增长的起点。MVP 最小可用产品-PMF 产品满足市场需求快速达到大模型RAG项目落地关键点理解技术边界避免过于乐观、悲观寻找适合技术的场景深度理解业务用户需求是关键技术来服务业务考虑产品壁垒用户/业务
3、壁垒如何抵抗复制用最好的模型确定产品有市场需求确定技术可以满足避免仅考虑技术业务优先,价值第一AI产品最大失败原因文档内容解析出错文档存在太多Corner Case知识库更新耗时长解析速度慢用户体验差机械分chunk丢失语义信息目标检索内容召回不到答案生成有幻觉召回结果排序困难问题出现在文档解析与向量化检索RAG本质问题细节大语言模型(LLM)驱动的检索增强生成(RAG)技术中确保能够从源文档中快速、精准地提取内容,对于提高最终输出的质量至关重要。在实际工作场景中,非结构化数据远比结构化数据丰富。但如果这些海量数据不能被解析,其巨大价值将无法发掘,其中 PDF 文档尤为突出。RAG优化目标一:
4、快速、稳定、精准解析文档大语言模型(LLM)驱动的检索增强生成(RAG)技术中嵌入式模型的作用是确保能够从源文档中快速、精准地提取内容。高效的处理能力是实现快速响应用户查询的关键,识别并提取与用户查询高度相关的文档片段,从而生成更准确、更相关的输出。RAG优化目标二:高精度、高效率向量检索研究方向:文档解析技术与向量化技术TextIn 通用文档解析acge_text_embedding 向量化模型将任意格式、版式的文档(图片、PDF、Doc/Docx等)高效、精准解析为Markdown格式,开源版面解析评价基准,排名第一在CMTEB文本嵌入基准上对6个任务的中文综合评估超越其他模型,排名第一T
5、extIn通用文档解析02有标记文档无标记文档Word文档HTML文档计算机视角下有标记的文档:#有标记文档MarkDown示例#第一部分#子标题|表格列1|表格列2|表格列3|-|-|-|正文:有标记的文档指的是可以直接用计算机处理,结构化文档 机器可以直接读取机器无法直接读取扫描文档图像PDF文档MarkDown文档计算机视角下无标记的文档:%PDF-1.04 0 obj stream 1.0.0.1.50.700.cmBT/F0 36.Tf(Hello,World!)TjET endstreamendobj计算机视角下两种类型的文档PDF文件:一系列显示打印指令的集合,非数据结构化格式。
6、显示不受设备、软件或系统的影响PDF(Portable Document Format 便携式文档格式),独立于应用程序、硬件和操作系统呈现文档的文件格式,能够完全保留原文档的格式。非结构化文档、不具备可编辑性文本的位置、字体、间距、缩放比例、页边距等所有属性在文件格式中限定死,让软件没有自由发挥的空间。解析 PDF 文档的挑战、让计算机可以获得PDF信息准确提取整个页面的布局,并将所有内容(包括表格、标题、文本段落和图像)转化为结构化数据形式。PDF文件格式MarkDown文件:关注内容而非打印格式,表示文档元素。MarkDown文件格式“优雅、简约、统一”表达多种形式的数据被互联网世界接受