1、主讲人:丁小欧目录工业场景的数据质量问题工业时序数据质量管理技术脉络复杂工业时序数据质量规则挖掘劣质工业时序数据检测与修复面向AI的数据治理探索与展望01工业场景的数据质量问题工业大数据的价值工业大数据是工业互联网的核心,是工业智能化发展的基础原料工业大数据技术具有重大战略价值提升制造智能化水平,推动中国工业升级支撑工业互联网发展,促进中国工业转型助力中国制造弯道取直工业大数据特点:实时性高、数据量大、质量低、价值密度低、异构性强工业大数据技术要求:高精度、高可靠性、强机理、重因果显著影响存在挑战工业大数据的价值工业大数据是工业互联网的核心,是工业智能化发展的基础原料l 制造过程数据数据量增长
2、最快l 装备、物料及产品加工过程的工况状态参数、环境参数等生产情况数据工业大数据技术综述,王建民,大数据,2017工业大数据质量问题产生原因器件和系统故障设备不配套、不可靠、不稳定现场恶劣工况违反工艺流程调度管理不当数据入库标准不一致工业大数据质量问题表现形式准确性:数据失真和失准有效性:数据不可靠完整性:数据缺失一致性:数据冲突、不一致时序问题:数据时序不齐l 时间戳不对齐l 序列错位存放IoT Data Quality,Shaoxu Song,Aoqian Zhang,CIKM 2020 tutorial 数据质量管理的重要价值数据质量管理是得到可靠分析结果的重要保障l 数据质量需求定义、
3、评估、分析、提升和监控环节持续改善中国工业大数据计算与应用白皮书,2017 工业物联网时序治理面临挑战时序数据积累丰富数据管理维护流程长数据内容与场景耦合性强数据规模高速大量质量问题成因复杂质量问题关联性强专用于工业物联网时序数据有效的数据质量管理技术!迫切需求02工业时序数据质量管理技术脉络数据质量管理技术总览数据清洗是有效修复错误数据,提高数据质量的必要途径数据清洗技术研究现状l 以错误数据检测和修复、规则(知识)发现为主要任务l 以基于统计、基于规则约束的方法为主,人机协同、学习模型的方法发展迅速Ihab F.Ilyas,Xu Chu:Data Cleaning.ACM 2019,pp.
4、1-285工业时序数据质量:“画-检-修-查”l 针对工业系统时序数据复杂性高、精度不一、质量问题复杂的特点,开展时序数据“画、检、修、查”研究,构建数据质量算法库,并与时序数据库系统集成l 工业时序数据质量管理技术l 建立对数据质量的精准画像、检测与修复l 支持可容错的高鲁棒查询处理技术工业时序数据质量:“画-检-修-查”ICDE 2025tDCDiscoverICDE 2024 RFDiscoverICDE 2024 TSDDiscoverVLDB 2024 DAFDiscover软件学报2022 TDCDasfaa 2023 MEDetectKBS 2021 TSDADetect软件学报
5、 2019 CGADetectICDE 2024 CleanbothVLDB 2024 MTSCleanTKDE 2022 Improve3CVLDB 2024 demoClean4TSDBVLDB 2019 demoCleanitsVLDB 2025UniCleanICDE 2025 demo CBACleanICN 2022 A survey:IoT data cleaning03复杂工业时序数据质量规则挖掘复杂工业时序数据质量规则挖掘:关键问题l 如何提高质量规则对于时序数据的表达力?l 从精准要求到容忍松弛l 兼顾行与列上的关联l 支持更复杂的函数结构复杂工业时序数据质量规则挖掘:关键
6、问题l 如何提高质量规则对于时序数据的表达力?l 从精准要求到容忍松弛l RFDisocver:基于最小覆盖的松弛依赖松弛函数依赖挖掘l DAFDiscover:含噪数据高鲁棒近似函数依赖挖掘l tDCDiscover:支持阈值的否定约束挖掘l 兼顾行与列上的关联l TDC:支持时窗的否定约束挖掘l 支持更复杂的函数结构l TSDDiscover:时序数据依赖挖掘复杂工业时序数据质量规则挖掘:解决方案总览针对工业时序数据中低质数据广泛存在、且质量评估与管理手段不足等问题l 构建了多维度数据质量评估与度量体系l 提出了高鲁棒数据质量规则挖掘系列算法l 面向时序数据质量表达机理以及质量约束挖掘算法