摘 要: | 为充分利用实际生产过程中产生的数值和文本数据,预防事故的发生,加强企业的安全管理水平,基于多种机器学习模型提出了一种能综合利用数值数据和文本数据的企业风险分析方法。首先,基于岭回归、被动进取、弹性网络回归、梯度增强等机器学习算法,构建了面向数据信息的生产风险分析模型;然后依次基于Jieba分词、LDA主题建模、单分类算法和集成算法等文本挖掘技术,构建了面向文本信息的生产风险分析模型;最后利用Pearson相关系数和回归算法,实现了面向“数值-文本”大安全数据的企业安全分析。结果表明:基于梯度增强回归算法的数据分析模型效果最好,基于Voting模型的文本分析模型表型分类效果最优,Pearson相关系数为0.443 8,基于GBR模型的“数值-文本”综合分析拟合度最高,“数值—文本—比对—综合”的大安全数据分析思路有助于提高企业的安全管理水平。
|