刘国强-智能时代的数据炼金术:从特征工程到组件化建模pdf.pdf

编号:169086 PDF 37页 4.69MB 下载积分:VIP专享
下载报告请您先登录!

刘国强-智能时代的数据炼金术:从特征工程到组件化建模pdf.pdf

1、DataFunSummit#2024智能时代的数据炼金术:从特征生产到组件化建模刘国强 阿里云 高级开发工程师01特征生产02目录 CONTENT组件化建模DataFunSummit#202401特征生产模型训练离线特征1UserFS sdk读取特征组装Batch特征MaxCompute缓存物品特征ItemHologres/OTS/GraphComputeFeatureDBEntity和FeatureView离线和在线数据同步PAI-Rec通过FS sdk 读户特征User-item为label数据离线特征2实时特征user1user2实时特征实时序列特征训练样本FG之前的数据同步初始化读取E

2、asyRec ProcessorOSS:模型TF模型打分Dataworks/PAI-Designer实时特征2MaxCompute打分请求读物品特征(含实时)FG:feature generate,特征成、衍读户特征同步特征产FeatureStoreFeatureStore 在推荐链路中的应在推荐链路中的应FeatureStoreFeatureStore 架构架构特征平台特征平台为什么需要为什么需要特征产特征产(程程)捕捉时间趋势 降低噪 丰富特征 提模型性能 增强解释性 数据压缩怎么做怎么做 根据不同的数据平台写对应的特征产语句 执不同的特征产逻辑问题问题 特征产实现过程复杂 计算过程难以优

3、化,花费资源多 线上线下各平台不致现象频出特征产特征产 同套特征产定义 根据定义产出各种特征 持本地调试,也适配各个数据平台 保证在线离线致性 优化计算过程,节省计算资源 统计特征实时更新特征产特征产特征定义编译结果MaxComputeFlinkSparkMore执特征定义特征定义Python 定义Json定义特征定义特征定义table1=TableTransform(name=drop_duplicates,#表变换名称keys=user_id,item_id,#去重字段sort_keys=event_unix_time,#排序字段sort_order=desc#顺序定义)feature1=

4、Feature(name=page_net_type,input=page,net_type,transform=ComboTransform(separator=_)feature2=Feature(name=trim_playtime,type=double,transform=playtime/10)编译编译 不同平台,分别实现MaxComputeFlinkSparkMore编译编译 连接不同变换 SQL:公表表达式(CTE)CTE 重写编译编译 变换内部优化 AggregationTransform WindowTransform 优化使功能 优化计算过程,节省计算资源,提运效率Agg

5、regationTransform 根据某个聚合函数做特征值统计 Ex:user_sum_click_count_3d 计算某个户最近3天点击过的所有物品的总点击数请求 id户 id为物品 id物品历史点击总数时间r1u1expri11020240618r2u2clicki11020240618r3u1clicki22020240619r4u1clicki33020240619r5u2clicki44020240619历史为宽表户 iduser_sum_click_count_3d时间u15020240619u2502024061920240619时间分区 user 侧特征表Aggregati

6、onTransform 根据某个聚合函数做特征值统计 同窗动归并,不同窗动联接 类型动推导 不同分组关键字(group key)动联接 内置动扩展函数,特征变换动扩展AggregationTransform 单个特征定义 动扩展函数可动扩展出成百上千个特征可精细定义每个具体特征WindowTransform 不同实体的交叉统计特征 Ex:user_kv_category_click_sum_3d 计算户最近3天点击过的不同类所有物品的总点击数请求 id户 id为物品 id物品类物品历史点击总数时间r1u1clicki111020240618r2u2clicki121020240618r3u1c

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(刘国强-智能时代的数据炼金术:从特征工程到组件化建模pdf.pdf)为本站 (张5G) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠