摘要:排行榜作为现代社会很受关注的一项事物深入大家的生活,但对于海量数据的排行,即使在分布式环境下,依然需要耗费大量硬件资源和很长的时间,有时甚至无法产出榜单。首先对贝叶斯方法进行了改进,提出了一种基于hadoop 分布式环境下的行榜海量数据过滤算法,该方法利用熵值理论对缺损数据进行填补得到完整数据;再利用改进的贝叶斯方法计算某商品当日销量进榜单的概率,并对概率低于概率阈值的商品数据进行过滤使其不参与排行计算,从而在确保排行榜精确度的前提下大大缩短榜单的产出时间。对淘宝网中400 万条销售记录数据进行实验仿真,结果验证了上述方法的有效性和优越性能。