1、例:支撑海量数据的大数据平台与架构 例:茹炳晟例:腾讯Tech Lead,腾讯研究院特约研究员正文要求:微软雅黑:最小字号 8号 宋体:最小字号 10号 等线:最小字号 12号喜马拉雅基于大模型ChatBl实践探索钱佳丽喜马数据仓库专家,喜马ChatBI数据负责人CONTENTS目录1.背景介绍2.喜马ChatBI设计思路和产品介绍3.喜马ChatBI实现原理以及案例解析4.总结与展望背景介绍我们有那么多的数据产品?用户用的怎样?报表产品企业从战略-决策-管理-策略-执行成果反馈全的链路数智驱动业务体系。自助取数产品灵活探索工具,降低业务人员数据探查/分析成本。分析型数据产品场景化建设决策工具
2、,提升策略效率与质量,助力业务决策。管理人员看数之痛 观星台上有非常多的数据,怎么看?数据解读难:数据解读需要一定数据能力,依旧大量依靠数据专业人员某个数据有波动,根因是什么?问题拆解难,反馈慢:涉及到具体问题的拆解,往往需要耗费BI和数仓做很多工作,效率不够高。业务人员用数之痛 当前业务有哪些数据可用?口径是什么?数据发现难:通常锚定特定看板或取数模型,若做业务拓展或调整,不知道有什么数据可用,好不容易发现数据,不知道口径是什么,容易误用。阶段性复盘和总结大量手工操作 手工操作繁琐,效率低:比如业务周报,需要大量下载数据进行Excel进行数据分析操作。不会写SQL,无法完成自主数据探索 数据
3、使用成本高:做业务探索时,大量依靠数据人员,而数据人员是有限的,往往需要等待排期,甚至坑由于优先级等因素搁置。数据人员产数之痛淹没在各类看数取数需求中 重复工作多,产出价值低:应用层需求应接不暇,开发各种临时表和中间表应对灵活多变的业务临时性需求。排期压力大 紧急需求多:业务新增指标总是非常紧急,总是越快越好。数据消费效率低 数据价值得不到释放:业务经常找不到数据,或者用错数据,数据没有被很好用起来。大模型在BI场景下的应用价值语句生成 业务:自助取数 开发:辅助开发数据发现 数据定位数据理解 结合每日业务报表数据情况,形成日常数据报告数据分析归因 波动归因开发提效分析提效深度洞察管理提效喜马
4、ChatBI设计思路和产品介绍产品定位和能力支持产品定位 愿景:人人都是数据分析师产品能力 问数:智能SQL生成自然语言转SQL、上下文理解、复杂查询处理、SQL优化建议等 问口径:智能口径解释自动口径识别、交互式口径探索、口径一致性检查、口径变更追踪、个性化口径说明。找数:智能数据发现全域数据搜索、智能推荐系统、数据血缘分析、实时数据预览、跨源数据关联 分析:深度数据洞察自动异常检测、预测性分析、多维度数据透视、智能报表生成设计思路产品架构产品形态 问数前台网页端对话框 透出能力信息 进行问题引导 执行过程可解释 提供用户反馈渠道钉钉机器人 便利性高 无内网限制产品迭代飞轮持续改进的循环过程
5、 产品通过迭代更新,不断满足用户需求,而用户的反馈又进一步推动产品的改进与用户共建 多渠道收集用户反馈 用户行为分析,了解用户的真实需求和痛点,反哺到数据 多方面透出,鼓励用户参与产品发布用户使用用户反馈产品改进共建案列产品功能 问口径,解决用户口径疑问,提升用数精准度 微调SQL发起查询 查询长度限制数据能力提升 全域用户数据,支持人群细分策略拆解和分析 内容数据粒度扩充 归因下钻分析产品使用现状使用人群(UV:百+)产品12%技术13%业务75%访问量占比产品技术业务能力:我今天取数的这个,理解上是有一定难度的,看下来取数过程没问题便捷:确实为了满足很多平台不具备强sql能力的同学,这个地
6、方非常便捷喜马ChatBI实现原理,案例介绍智能问数实施流程图数据准备阶段关键点1:数据建设完善数据质量 数据准确:数据准确性有把握的高质量数据,去除噪声、重复内容。描述精准:数据经过精确的标注,无口径歧义。数据结构 结构易理解,便于模型学习和理解。表类型表类型适用场景适用场景注意点注意点Key-Value指标类查询Key命名要规范,特别是分子/分母命名一致。Cube表看板指标查询各类”ALL”的取值情况限定,维度层级关系。宽表大部分场景粒度、指标说明要完善,相近指标要澄清完全。数据准备阶段关键点2:数据查询高效查询性能 数据通过转存、物化视图方式高效存