1、DataFunSummit#2024智能时代的数据炼金术:从特征生产到组件化建模刘国强 阿里云 高级开发工程师01特征生产02目录 CONTENT组件化建模DataFunSummit#202401特征生产模型训练离线特征1UserFS sdk读取特征组装Batch特征MaxCompute缓存物品特征ItemHologres/OTS/GraphComputeFeatureDBEntity和FeatureView离线和在线数据同步PAI-Rec通过FS sdk 读户特征User-item为label数据离线特征2实时特征user1user2实时特征实时序列特征训练样本FG之前的数据同步初始化读取E
2、asyRec ProcessorOSS:模型TF模型打分Dataworks/PAI-Designer实时特征2MaxCompute打分请求读物品特征(含实时)FG:feature generate,特征成、衍读户特征同步特征产FeatureStoreFeatureStore 在推荐链路中的应在推荐链路中的应FeatureStoreFeatureStore 架构架构特征平台特征平台为什么需要为什么需要特征产特征产(程程)捕捉时间趋势 降低噪 丰富特征 提模型性能 增强解释性 数据压缩怎么做怎么做 根据不同的数据平台写对应的特征产语句 执不同的特征产逻辑问题问题 特征产实现过程复杂 计算过程难以优
3、化,花费资源多 线上线下各平台不致现象频出特征产特征产 同套特征产定义 根据定义产出各种特征 持本地调试,也适配各个数据平台 保证在线离线致性 优化计算过程,节省计算资源 统计特征实时更新特征产特征产特征定义编译结果MaxComputeFlinkSparkMore执特征定义特征定义Python 定义Json定义特征定义特征定义table1=TableTransform(name=drop_duplicates,#表变换名称keys=user_id,item_id,#去重字段sort_keys=event_unix_time,#排序字段sort_order=desc#顺序定义)feature1=
4、Feature(name=page_net_type,input=page,net_type,transform=ComboTransform(separator=_)feature2=Feature(name=trim_playtime,type=double,transform=playtime/10)编译编译 不同平台,分别实现MaxComputeFlinkSparkMore编译编译 连接不同变换 SQL:公表表达式(CTE)CTE 重写编译编译 变换内部优化 AggregationTransform WindowTransform 优化使功能 优化计算过程,节省计算资源,提运效率Agg
5、regationTransform 根据某个聚合函数做特征值统计 Ex:user_sum_click_count_3d 计算某个户最近3天点击过的所有物品的总点击数请求 id户 id为物品 id物品历史点击总数时间r1u1expri11020240618r2u2clicki11020240618r3u1clicki22020240619r4u1clicki33020240619r5u2clicki44020240619历史为宽表户 iduser_sum_click_count_3d时间u15020240619u2502024061920240619时间分区 user 侧特征表Aggregati
6、onTransform 根据某个聚合函数做特征值统计 同窗动归并,不同窗动联接 类型动推导 不同分组关键字(group key)动联接 内置动扩展函数,特征变换动扩展AggregationTransform 单个特征定义 动扩展函数可动扩展出成百上千个特征可精细定义每个具体特征WindowTransform 不同实体的交叉统计特征 Ex:user_kv_category_click_sum_3d 计算户最近3天点击过的不同类所有物品的总点击数请求 id户 id为物品 id物品类物品历史点击总数时间r1u1clicki111020240618r2u2clicki121020240618r3u1c