1、AGIAGI时代统一数据目录的设时代统一数据目录的设计与实践计与实践演讲人:邵赛赛演讲人:周康About US Datastrato联合创始人及CTO Apache Gravitino创始人 Apache Spark committer&PMC member Apache Member 小米数据开发平台负责人 Apache Gravitino PPMC邵赛赛周康目 录01AGI时代的数据需求02现有技术的挑战03AGI时代的统一元数据底座04小米在Gravitino上的实践01AGI时代的数据需求LLM开发者的典型工作模式ExperimentsSweepsRegistryAutomationL
2、aunch模型训练,调优,及生产化实验的跟踪和可视化超参优化发布和分享模型及数据集自动触发流程打包、运行ML流程作业TracesEvaluations编排开发GenAI应用评估GenAI应用监控、调试LLM和提示ArtifactsDataReports数据 大模型开发应用的核心(1)输入数据加工数据集模型向量提示词数据 大模型开发应用的核心(2)数据发现数据血缘数据治理权限控制不同组织之间分享模型、数据集数据集、模型生命周期管理数据集、模型治理及权限控制LLM is Only as Good as your DataGarbage in,garbage out!https:/www.llama
3、index.ai/blog/introducing-llamacloud-and-llamaparse-af8cedf9006b02现有技术的挑战数据被锁定在不同的数据源中数据湖数据仓库消息队列向量数据库Share DriveData EraGenAI Era数据被地域分割企业由单云单域架构向多云多域架构迈进不可避免的数据分割跨云数据的传输成本数据管制的限制中心化的数据纳管已不现实数据被组织分割Business AKafka+AWS-ESOrder PaymentMysqlBusiness BKafka+RedisData EngineerInfra EngineerAI EngineerBu
4、siness CKafka+Redis数据被孤立到不同部门拥有的数据平台中,但是新业务和LLM需要一种统一的方式来访问您的所有数据。水面下的数据问题数据发现Automatically find,classify,and map all of your data-everywhere.数据连接Connect to the Data That Matters Most.数据分类Automatically classify more types of data in more places.数据生命周期管理Simplify and automate data lifecycle management
5、 from collection to destruction.PII&PI DataLegal Hold DataCredentialsIP DataTechnical&Business Data3rd Party Data元数据增强Enrich technical metadata with business and operational metadata for full visibility.数据主权Automate end-to-end data rights requests and reporting.03Gravitino AGI时代的统一元数据底座元数据湖 统一的数据/AI
6、目录数据湖数据仓库消息队列机器学习Hive MetastoreBuilt-in CatalogSchema RegistryRegistry目标:数据统一视图从元数据层面上达到SSOT统一访问和治理Next-Gen Data Catalog is the Core in New Open Data Architecture Apache Gravitino 统一的元数据湖GravitinoGravitinoGravitinoGravitino Unified Metadata LakeUnified AccessingUnified ManagingData LakeData Warehous