彭力-大语言模型下的数据及知识管理.pdf

编号:153859 PDF 34页 7.15MB 下载积分:VIP专享
下载报告请您先登录!

彭力-大语言模型下的数据及知识管理.pdf

1、大语言模型下的数据及知识管理彭力 小米AI实验室演讲嘉宾彭力小米集团-AI实验室-大模型数据团队负责人2012年至2018年曾就职于百度,于2018年5月加入小米。先后负责知识图谱平台及大模型数据团队的技术体系的构建。目前主要负责小米自研大模型的数据及知识构建及自研模型的落地,并在此期间参与知识图谱国家标准的制定。曾在全球人工智能大会、Data fun talk等多个会议和论坛参加知识图谱相关主题的技术分享目 录CONTENTS1.LLM下数据和知识重要性2.数据获取中遇到的问题及解决方案3.小米业务场景下的大模型的应用4.总结与展望知识和数据管理的重要性PART 01海量数据及知识对大语言模

2、型的影响模型参数越大需更越多的知识大语言模型基座训练需要更多更丰富的知识海量数据及知识对大语言模型的影响How Abilities in Large Language Models are Affected by Supervised Fine-tuning Data Composition除基座训练以外全阶段的性能依赖高质量的知识Introducing ChatGPT大模型下数据加工及管理的解决方案PART 02大语言模型中数据及知识管理问题获取存储质量控制数据价值l数据渠道多元化l格式丰富l解析困难l文件小但海量l模型文件多l大文件需并行计算l整体质量差l局部低质l有毒过滤l对基座训练影响

3、l评估方法l模型联动0101020203030404小米大语言模型中数据及知识挖掘布局识别阅读顺序格式解析表格/公式/化学式/12345678910123456789101112131 12334567891011121314l 布局复杂且包含丰富的元素基于文档分析的不同格式的数据和知识提取依然存在挑战l 多栏之间转换影响阅读的顺序l 多样式的公式及表格等需统一小米大语言模型中数据及知识挖掘1图片2图片caption3文本段落4标题5页眉6公式7表格caption8表格文档元素类别小米大语言模型中数据及知识挖掘第一阶段:启发式阶段1900年(规则)第二阶段:机器学习阶段2000年第三阶段:深度

4、学习阶段https:/arxiv.org/pdf/2111.08609.pdfDOCUMENT AI:BENCHMARKS,MODELS AND APPLICATIONS2014年图像分割图像分类l 文档图像分类l 文档布局分析(Document layout analysis)l 公式、表格检测结构识别Docstrum小米大语言模型中数据及知识挖掘机器之心sota方法排行榜LayoutReader:Pre-training of Text and Layout for Reading Order Detection相关布局模型文档块阅读顺序基于目标检测的文档布局识别图源自:https:/ S

5、olution for ICDAR 2021 Competition on Scientific Literature Parsing Task B:Table Recognition to HTMLTableFormer:Table Structure Understanding with Transformers.小米大语言模型中数据及知识挖掘原生PDF图片JPG扫描PDFword转图片布局元素及阅读顺序预测Latex/table ocr/text按阅读顺序拼接beginarraylF_mathrmq 1=P_mathrmA cdot A_mathrmA-P_mathrmB cdotlef

6、t(A_mathrmB-A_mathrmnaturalright)F_mathrmq=P_mathrmB cdotleft(A_mathrmB-A_mathrmgright)-P_mathrmA cdot A_mathrmAendarraybegintabular|c|c|c|hline 序号&影响因軬&vsv 后量$left.lcircright)$hline 1&柔后压力过低&仿真排除 hline 2&活门泄漏&仿真排除 hline 3&仿真排除 hline 4&控制器内部机械刚度过低&仿真排除 hline 5&反钘机构位移输人输出偏差&仿真排除 hline 6&作动简内浛漏&仿真排除 h

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(彭力-大语言模型下的数据及知识管理.pdf)为本站 (2200) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠