多因素影响特征选择的短文本分类方法
作者:
作者单位:

作者简介:

通讯作者:

中图分类号:

基金项目:

山西省中科院科技合作项目(20141101001);“十二五”山西省科技重大专项项目(20121101001);山西省社会发展科技攻关项目(20140313020-1)


Short Text Classification Based on Multi-Factors Affecting Features Selection
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 增强出版
  • |
  • 文章评论
    摘要:

    特征选择即是降维去噪的过程,一个词汇是否具有强的类别区分能力通过特征选择评价函数的权值大小来衡量,然而影响特征选择的因素有很多,主要包括特征的维度、重要性和语义;针对短文本信息量少导致特征表示高维稀疏和传统特征提取方法缺乏语义的问题,构建多因素融合的特征选择函数FS,和传统的特征选择函数TF-IDF对比,FS不仅融入了特征的语义性,而且能够去除大量冗余特征,提高具有类别区分能力特征的权重;把FS作为新的特征选择函数,使用搜狗实验室的中文语料库进行短文本分类实验,验证了方法有效性.

    Abstract:

    Feature Selection (FS) is reducing dimensions and denoising. However, there are many factors that affect the features selection, mainly including the dimensions, importance, and semantic of terms. For feature representing high-dimensional but sparse of short text and traditional features extraction lack semantic, a feature selection function FS fusing multi-factors is constructed. It is verified that FS not only can integrate the semantics of the feature, but also can remove a large number of redundant features, thus improve the weight of the features with class distinction capabilities, comparing with the traditional feature selection function TF-IDF. FS as a new function, using the Chinese corpus of Sogou Lab for short text classification, verifys the effectiveness of the method.

    参考文献
    相似文献
    引证文献
引用本文

李文慧,张英俊,潘理虎.多因素影响特征选择的短文本分类方法.计算机系统应用,2018,27(12):216-221

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2018-05-04
  • 最后修改日期:2018-05-24
  • 录用日期:
  • 在线发布日期: 2018-12-05
  • 出版日期:
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京海淀区中关村南四街4号 中科院软件园区 7号楼305房间,邮政编码:100190
电话:010-62661041 传真: Email:csa (a) iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号