1 王尧-大模型驱动:以应用为中心的数据治理新范式.pdf

编号:991601 PDF 31页 1.97MB 下载积分:VIP专享
下载报告请您先登录!

1 王尧-大模型驱动:以应用为中心的数据治理新范式.pdf

1、王尧wangyao_大模型如何重塑数据治理与数智应用提纲1.现状复盘 为什么数据治理做了,业务还是在抱怨脏数据?2.技术洞察 大模型的能力和边界3.匹配技术与需求 大模型如何辅助数据治理和应用4.机遇在哪里?新工具还是新范式?数据治理!=业务效果越接近应用,数据就越难以复用业务逻辑不同语义依赖上下文/特定作业流程时效性变化同一份诊疗记录,面向心血管和肿瘤诊疗应用关注的信息非常不一样脱离开上下文、当时的业务流程,则无法确定字段含义临床诊疗方式的进步使得此前“合理”的数据结构逐渐不能满足需求数据治理的目标是哪种?通用一次治理处处可用定制化满足某个业务的上线/分析目标专用专用的代价是什么?高复杂度重

2、复投入结构性矛盾:通用做不到,专用养不起什么制约了通用化?有限的认知 v.s.无限的场景什么制约了专用化?有限的资源 v.s.无限的需求哪个矛盾有可能被大模型缓解?“理解”需求和数据过去过去现在现在需求端需求端必须以SQL/Python等结构化语言描述需求,系统才能执行得到结果。为了实现结构化语言描述,需要将抽象的需求转为具体的、可执行的代码,其中涉及多环节人人沟通(“拉通”、“对齐”)、人机调试(“debug”)大模型可以“理解”以自然语言、既有的格式语言(此前的程序代码)、图片等媒介形式描述的需求。此处“理解”表现为可以根据语言描述完成对应任务数据端数据端基于预定义数据类型(str/dat

3、e/)处理数据,系统并不理解其内容的语义。即便进行语义分析(NLP),产出了tag等语义内容数据,系统处理的依然是tag大模型完全有能力基于meta(每一列的标题、数据类型)和内容(每一行的原始数据),从语义层面“理解”数据的特点,并在实现需求中用于决策。此处“理解”,表现为可以根据需求找到(至少一部分)内容相关字段,并根据实际内容语义选择合适的处理方式“思考”与行动LLM-based Agent 在人类指导下,可完成代码的生成和调试是不是只要描述需求,其他都可以交给大模型了?技术边界和组织责任的边界在哪里技术边界 如果没有*独立*验证器,大模型无法判断生成内容的对错 编译器(或解释器)提供了

4、语法验证,因此当前Agent可以生成语法正确的代码 但是,一段程序“语法正确(可以编译、执行)”等价于“正确实现了需求吗”?将来技术进步有可能不需要外部验证器吗?类比:人,在反复检查了自己的工作后,就不会出错吗?为什么重要任务要设置独立审核?来自哥德尔的隐喻:在任何足够复杂的系统内部,都存在它自己无法证明的命题对错误的不自知组织责任边界结构:责任是组织流程的锚点 在所有涉及风险与后果的决策流程中,责任必须有归属者(背锅侠)大模型不能背锅,不是技术水平不够,而是结构上不可能机制:AI缺乏“终局反馈机制”人类在高风险决策中慎之又慎,不仅出于理性,更因为对不可逆损失的生理厌恶 LLM是在模仿人类语言

5、的目标下被训练的,它从未面对“终局”;AlphaGo在围棋的世界里确实学到了“终局”,但这不等价于现实世界的终局代价责任不是一种功能,而是一种资格大模型不是替代者,而是倍增器放大个人能力只要驾驭者具备架构设计能力和调试经验,大模型免去了“全栈”所需的基础知识训练放大组织能力降低摩擦成本,减少部门墙带来的障碍数据治理的每个环节,大模型可以做什么数据治理流程数据治理流程大模型的作用大模型的作用1.始于业务需求2.基于现有数据3.产出数据资产理解需求理解数据提出设计草案/生成可执行代码人机协作方法论大模型辅助Coding需求(数据智能应用)输入(原始数据资产)解决方案代码实现产出物(目标数据资产)大

6、模型辅助设计这一方法论只适用于数据治理吗?为什么不用大模型“端到端”生成目标数据?可靠性大模型的输出强烈依赖于输入,真实数据内容千差万别,任何一个字符的差异都可能破坏输出结果的正确性人不可能逐条review目标数据(那又何必用大模型?),但可以review生成的程序效率虽然大模型生成、调试程序需要(时间、token、人类专家审阅)成本,但生成的专用程序的执行效率远远优于LLM端到端推理优势不止于效率过去,我们被迫用机器能懂的语言来思考;今天,机器能听懂我们自然的思考方式。过去,人常常陷在代码细节里,现在他们终于能回

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(1 王尧-大模型驱动:以应用为中心的数据治理新范式.pdf)为本站 (可不可以) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠