基于频繁模式的长尾文本聚类算法
作者:
作者单位:

作者简介:

通讯作者:

中图分类号:

基金项目:

国家科技支撑计划项目子课题(2015BAD29B01);农业部软科学研究课题(D201721);中央高校基本科研业务费专项资金(CZY18016)


Long Tail Text Clustering Algorithm Based on Frequent Patterns
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 增强出版
  • |
  • 文章评论
    摘要:

    短文本聚类一直是信息提取领域的热门话题,大规模的短文本数据中存在“长尾现象”,传统算法对其聚类时会面临特征纬度高,小类别信息丢失的问题,针对对上述问题的研究,本文提出一种频繁项协同剪枝迭代聚类算法(Frequent Itemsets collaborative Pruning iteration Clustering framework,FIPC).该算法将迭代聚类框架与K中心点算法相结合,运用协同剪枝策略,实现对小类别文本聚类,实验结果证明该聚类算法能够有效的提高小类别短文本信息聚类的精确度,并能避免聚类中类簇重叠的问题.

    Abstract:

    Short texts clustering is a popular topic in the field of information extraction. There is a "long tail phenomenon" when the scale of data is large, which causes high dimensions of features and information loss of small class. To solve these problems, this study proposes a Frequent Itemsets collaborative Pruning iteration Clustering framework (FIPC). This framework combines the iterative clustering framework with the K-mediods algorithm, using the collaborative pruning strategy to cluster text of small class. The result of experiments shows that the FIPC framework can achieve text clustering of small class with high accuracy, and avoid the problem of overlapping clusters.

    参考文献
    相似文献
    引证文献
引用本文

宋中山,张广凯,尹帆,帖军.基于频繁模式的长尾文本聚类算法.计算机系统应用,2019,28(4):139-144

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2018-10-15
  • 最后修改日期:2018-10-31
  • 录用日期:
  • 在线发布日期: 2019-03-29
  • 出版日期:
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京海淀区中关村南四街4号 中科院软件园区 7号楼305房间,邮政编码:100190
电话:010-62661041 传真: Email:csa (a) iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号