1、大模型时代下的DataOps和DataFabric白鲸开源白鲸开源 CEOCEOApache Software Foundation MemberApache Software Foundation Member郭炜郭炜郭炜白鲸开源 CEOApache 基金会成员,Apache 孵化器导师Apache DolphinScheduler PMC,Apache SeaTunnel 导师,ClickHouse 华人社区创始人 郭炜先生毕业于北京大学,现任中国通信学会开源技术委员会委员,中国计算协会开源发展委员会委员,中国软件行业协会智能应用服务分会副主任委员,全球中小企业创业联合会副会长,TGO鲲鹏
2、会北京分会会长,ApacheCon Asia DataOps论坛主席,波兰DataOps峰会、北美Big Data Day演讲嘉宾,虎啸十年 杰出数字技术人物,中国开源社区最佳33人,中国2021年开源杰出人物郭炜先生现任白鲸开源CEO,曾任易观CTO,联想研究院大数据总监,万达电商数据部总经理,先后在中金、IBM、Teradata任大数据方重要职位,对大数据前沿研究做出卓越贡献。同时郭先生参与多个技术社区工作,Presto,Alluxio,Hbase等,是国内开源社区领军人物。4现代程序员编程模式现代程序员编程模式5大模型已经在产研各个领域产生作用大模型已经在产研各个领域产生作用wirk客服
3、UI MarketingEmailmagic AI研发产品文档撰写产品宣讲MidJourneyOpenArt需求设计WhaleGPT大模型辅助已经在开发整体流程中产生了更大的变化作用,熟练大模型的开发者可以“以一当十”。选自郭大侠AIGC产研工具全景图6何时用人何时用大模型编程?何时用人何时用大模型编程?优点缺点场景人逻辑复杂缜密,可以完成比较复杂的开发任务写代码效率低成本高复杂业务逻辑,核心引擎Co-Pilot整合在开发工具中,快速复用/书写类似代码准确率不高,生成代码段比较短,逻辑简单辅助编程,复用代码ChatGPT可以编写较复杂的业务代码,特别是有类似案例的情况下需要code-revie
4、w,错误隐藏的更深,缺乏创造性有类似场景代码,自动生成新场景代码私有化AIGC数据更安全,更懂你的业务准确率和模型正相关,目前在70%左右Txt2SQL,运维脚本7大模型编程示例大模型编程示例Apache SeaTunnelApache SeaTunnel让大模型帮助你对接各种复杂SaaS而不需要重新开发:SeaTunnel 2.3.1 重磅发布!AI compatible 特性引发关注 SeaTunnel发布AI Compatible版本2.3.1,为ChatGPT重构适合AI开发的程序接口和程序架构,可以让GPT自动生成对接SaaS的接口,生成代码可以直接运行,与人类开发代码99%相似,开
5、发接口速度从80小时变为1小时 SeaTunnel利用开源代码+SaaS开放接口+GPT强大优势碾压Airbyte/FiveTran数百SaaS接口优势 挑战:Code-Review给出参考和要求可自动生成接口且生成代码可直接运行8大模型让更专业的人做专业的事情,体力活交由大模型来做大模型让更专业的人做专业的事情,体力活交由大模型来做Apache SeaTunnel Zeta核心,全职人编写,社区辅助启动Connector全职人员编写外部数据Connector社区贡献SaaS ConnectorGPT Coder10DataOps x DataOps x 大模型大模型 让大模型可以进入千家万户
6、让大模型可以进入千家万户微调开源模型重新训练模型从0构建大模型Few-shot PromptingZero-shot Prompting动态Prompting多模态 Prompting微调现有模型高门槛低门槛个人、小型企业/团队用SaaS中型企业/团队使用模型超大型企业/团队自建模型Prompting 工程适配/微调重新构建LangchainFew-shot PromptingZero-shot Prompting重新训练模型从0构建大模型微调开源模型多模态 Prompting微调现有模型动态Prompting企业使用大模型存在门槛:专业人才?训练过程复杂GPU资源?数据供给?11私有化大模型