基于改进的CHI统计方法在文本分类中的应用
作者:
作者单位:

作者简介:

通讯作者:

基金项目:


Application of Text Categorization Based on Improved CHI-Square Statistic Method
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
    摘要:

    随着文本分类技术的发展与成熟,越来越多的企业将其应用到客户投诉分类系统中,并获得了一定的效果.针对传统卡方统计方法偏向于选择出负相关低频噪音词,将改进的CHI统计方法运用到文本特征选择,通过降低负相关低频词在特征选择算法中的权重,减小其对模型的影响.最后,对某省通信公司的业务投诉文本进行实验,结果表明该模型和方法是有效的,能更准确地对业务投诉工单进行分类,从而为后续问题的分析提供数据支持.

    Abstract:

    With the development and maturity of text classification technology, more and more enterprises have applied it to the customer complaint classification system, and obtained the certain effect. Given that the CHI-square Statistic methods tend to choose negative words, so an improved CHI statistical method is applied to the text feature selection, which means reducing the weight of negative words in the feature selection algorithm and minimizing the impact on the model. Finally, an experiment is performed on the complaint text of a communications company business. The result shows that the model and method are effective, and can be more accurate for the classification of business complaints, so as to provide data support for the follow-up problem analysis.

    参考文献
    相似文献
    引证文献
引用本文

黄章树,叶志龙.基于改进的CHI统计方法在文本分类中的应用.计算机系统应用,2016,25(11):136-140

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
历史
  • 收稿日期:2016-02-18
  • 最后修改日期:2016-03-22
  • 录用日期:
  • 在线发布日期: 2016-11-15
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京海淀区中关村南四街4号 中科院软件园区 7号楼305房间,邮政编码:100190
电话:010-62661041 传真: Email:csa (a) iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号