1、农业污染源普查数据质量控制方法与空间规则实践农业污染源普查数据质量控制方法与空间规则实践农业农村部环境保护科研监测所农业农村部环境保护科研监测所科技、创新科技、创新目目录录01农业污染源普查简介02质控工作总体概述03填报与审核阶段质控04入库阶段质控05总结PART 01农业污染源普查简介农业污染源普查简介农业污染源普查简介农业污染源普查简介1农业污染源普查内容:普查标准时点:2017年12月31日五大专业:种植业、畜禽养殖业、水产养殖业、秸秆、地膜内容:生产活动水平调查、原位监测、相关成果分析四级管理:部、省、市、区县全国的普查员:部、省、市、县四级:调查员、审核员承担调查任务的普查县:种
2、植业2886个、畜禽1746个、秸秆121个、地膜321个、水产100个参与人员:54791位生产活动水平调查:2018年9月2018年7月15日原位监测调查:2018年5月 2019年9月31日普查工作时限:五个专业、覆盖全国、两类调查全流程、全要素、可追溯PART 02质控工作总体概述质控工作总体概述质控工作总体概述质控工作总体概述2原始数据省质控数据结果库填报阶段审核阶段入库阶段农业污染源普查流程填报阶段质控审核阶段质控入库阶段质控PART 03填填报与审核阶段质控报与审核阶段质控填填报阶段质控报阶段质控全全过程留痕过程留痕3填报环节全过程痕迹追溯空间信息位置留痕APP直接获取填报时位置
3、GPS位置,不允许修改,并且将信息直接以水印的形式标识在现场的照片上(系统也将储存)。填填报阶段质控报阶段质控机械校机械校验验3机械校验通过采集端内置的字典表,以及专业规则进行强制校验2017年行政区划代码、统一填写表头(省、市、县)数据字典表种植业、秸秆、地膜水产、畜禽字典表数据专业规范内置共计20余条专业校验规范,根据专业规则对填写的数据进行数据规范校验不通过,不允许提交审核阶段质控审核阶段质控空空间校验间校验3空间校验通过可视化手段,将坐标落在县域内,用于快速定位偏移数据。审核阶段质控审核阶段质控可可视化校验视化校验3可视化校验通过数据规律,利用可视化的方法,对数据进行横向校验。聚类分析
4、直方图散点图从数据离散性上发现异常可用于发现单位填写错误的异常从数据的规律上发现异常审核阶段质控审核阶段质控3审核阶段质控专题专题退回数量退回数量退回数量占比退回数量占比畜禽67601条98.89%地膜13728条36.39%秸秆581条3.98%水产1586条5.34%种植业121432条37.30%4-6月各专业退回数量PART 04入入库阶段质控库阶段质控补充校验补充校验通过异常值检测算法,从统计学角度去发现异常数据利用gis的手段,将数据制图,从图中发现潜藏的数据问题通过新的规则和阈值范围,对各专业数据进行补充校验算法算法检测检测竞争型神经网络+GIS制制图分析图分析入入库阶段质控库阶
5、段质控方法介方法介绍绍竞争型神经网络与GIS相结合,通过空间分布规律寻找异常数据443准则又称为拉依达准则,它是先假设一组检测数据只含有随机误差,对其进行计算处理得到标准偏差,按一定概率确定一个区间,认为凡超过这个区间的误差,就不属于随机误差而是粗大误差,含有该误差的数据应予以剔除。1、仅局限于对正态或近似正态分布的样本数据处理;2、对异常值的耐抗性小,异常数据本身会对其造成影响;3、为保证检测结果的准确性,数据量必须充足。系统异常值算法介绍-3原则数据分布区间数值分布在(-,+)中的概率为0.6827数值分布在(-2,+2)中的概率为0.9545数值分布在(-3,+3)中的概率为0.9973
6、-(平均数)、(标准差)适用范围及局限算法算法检测检测检测方法介绍检测方法介绍4箱形图(英文:Box plot),是一种用作显示一组数据分散情况资料的统计图。因型状如箱子而得名,常见于品质管理。其最大的优点就是不受异常值的影响,可以以一种相对稳定的方式描述数据的离散分布情况。1、四分位对仅用于显示数据位置,对异常数据耐抗性高2、多达25%的数据可以变得任意远而不会很大地扰动四分位数3、为保证检测结果的准确性,数据量不能太小4、在异常值方面具有一定的优越性系统异常值算法介绍-箱形图绘制步骤及数据分布区间1、找出一组数据的中位数和上下四分位数(Q3和Q1)2