本发明涉及一种基于密度和扩展网格的数据流聚类方法,利用Spark并行计算平台,对传统的数据流聚类算法进行了分析和改进,提出了基于密度和扩展网格的数据流聚类算法,改进了人工设置聚类参数的缺陷,可以得到任何形状的聚类,算法基本步骤如下:1、采用每个采样点的局部密度和与其他采样点的距离,确定了网格中的聚类中心数,自动确定聚类中心,避免了初始质心选取不当对聚类结果的影响;2、网格聚类以外的数据点,通过扩展网格,扩展了网格内的聚类,确保了聚类的准确性;3、引入相邻密度估计与网格边界实现网格的合并,节省内存消耗;4、采用衰减因子实时更新网格密度,反应空间数据流的演变过程。