首页 | 本学科首页   官方微博 | 高级检索  
     

基于KPCA-IF-WRF模型的多源VOCs数据清洗方法研究
作者姓名:黄光球  赵羲轩  陆秋琴
作者单位:西安建筑科技大学管理学院
基金项目:国家自然科学基金项目(71874134);;陕西省自然科学基础研究计划项目(2019JZ-30);
摘    要:为了解决多源挥发性有机物(Volatile Organic Compounds, VOCs)数据存在数据维度高、数据关系复杂、数据存在异常的问题,建立了基于核主成分分析(Kernel Principal Component Analysis, KPCA)、孤立森林(Isolated Forest, IF)、加权随机森林(Weighted Random Forest, WRF)混合方法的VOCs数据清洗模型。首先对研究区域进行网格划分,建立了基于KPCA-IF的VOCs降维异常数据识别模型,通过KPCA方法对多源混合VOCs数据降维,使用IF算法识别异常数据并进行剔除。然后设计了基于WRF的VOCs数据补偿算法,对降维与异常识别后的数据集进行缺失值回归填补。最后,以西安市为例,选取空气质量数据、气象数据等多源VOCs数据进行数据清洗。结果表明,该混合模型可有效对多源VOCs数据降维,进行数据清洗的平均绝对误差为5.08、均方根误差为10.24、中值绝对误差为3.54,均优于对比模型,证明了KPCA-IF-WRF混合模型的鲁棒性更强、精确度更高,具有科学性和可行性。

关 键 词:环境工程学  挥发性有机物  数据清洗  核主成分分析  孤立森林  加权随机森林
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号