首页 | 本学科首页   官方微博 | 高级检索  
     检索      

用于文本分类的特征选择方法
引用本文:龚静,曾莉.用于文本分类的特征选择方法[J].湖南环境生物职业技术学院学报,2008,14(3):24-26.
作者姓名:龚静  曾莉
作者单位:湖南环境生物职业技术学院信息技术系,湖南,衡阳,421005
基金项目:湖南环境生物职业技术学院院长基金项日 , 湖南省教育厅项目
摘    要:文本分类是文本挖掘的一个重要的研究方向,用机器学习方法进行特征选择对文本分类起关键作用.文章比较了文档频数、信息增益、互信息、恐统计量、期望交叉熵、文本证据权以及几率比等7种常用于文本分类的特征选择方法.采用人民网的中文文本语料和Rocchio算法对以上的特征选择方法分别进行了评估实验,实验结果表明,几率比的性能优于其它特征选择方法.表1、参5.

关 键 词:文本分类  特征选择  评价函数

Feature Selection Methods Applied in Chinese Text Categorization
GONG Jing,ZENG Li.Feature Selection Methods Applied in Chinese Text Categorization[J].JOurnal of Hunan Environment Biological Polytechnic,2008,14(3):24-26.
Authors:GONG Jing  ZENG Li
Institution:GONG Jing,ZENG Li(Department of Information Technology,Hunan Environment-Biological Polytechnic,Hengyang,Hunan 421005,China)
Abstract:Text categorization is a very important direction in data mining.Feature selection using machine learning approach is keystone and difficult point in text categorization.This paper presented an investigation of seven feature selection methods that are commonly used in text categorization: document frequency,information gain,mutual information,X2 statistic,expected cross entropy,weight of evidence for text,and odds ratio.In order to evaluate these methods,experiments had been carried out combined with Chines...
Keywords:text categorization  feature selection  evaluation function  
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号