基于字词向量融合的民航智慧监管短文本分类 |
| |
作者姓名: | 王欣 干镞锐 许雅玺 史珂 郑涛 |
| |
作者单位: | 1. 中国民用航空飞行学院计算机学院;2. 中国民用航空飞行学院经济与管理学院;3. 中国民用航空飞行学院民航监察员培训学院 |
| |
基金项目: | 国家自然科学基金资助(U2033213);;中央高校基本科研业务费专项资金资助(J2022-048,J2019-045); |
| |
摘 要: | 为解决民航监管事项所产生的检查记录仅依靠人工进行分类分析导致效率低的问题,提出一种基于数据增强与字词向量融合的双通道特征提取的短文本分类模型,探讨民航监管事项的分类,包括与人、设备设施环境、制度程序和机构职责等相关问题。为解决类别不平衡问题,采用数据增强算法在原始文本上进行变换,生成新的样本,使各个类别的样本数量更加均衡。将字向量和词向量按字融合拼接,得到具有词特征信息的字向量。将字词融合的向量分别送入到文本卷积神经网络(TextCNN)和双向长短期记忆(BiLSTM)模型中进行不同维度的特征提取,从局部的角度和全局的角度分别提取特征,并在民航监管事项检查记录数据集上进行试验。结果表明:该模型准确率为0.983 7,F1值为0.983 6。与一些字嵌入模型和词嵌入模型相对比,准确率提升0.4%。和一些常用的单通道模型相比,准确率提升3%,验证了双通道模型提取的特征具有全面性和有效性。
|
关 键 词: | 字词向量融合 民航监管 短文本 文本卷积神经网络(TextCNN) 双向长短期记忆(BiLSTM) |
|
|