数据挖掘的聚类分析算法研究-学术点评

数据挖掘的聚类分析算法研究

时间：2023-03-31 08:39:16

数据挖掘;

摘要：“以学生为中心”的智能教育，旨在用互联网和人工智能辅助教学，不再局限于传统的课堂．太原师范学院紧跟时事，创立了智能教育产业学院，目的是采集、处理和分析教育数据，为相关部门提供决策依据，服务地方教育．其中，如何更高效地分析数据是一大难点，利用人工分析显然不是很好的选择，随着数据挖掘领域的发展，当中的聚类分析算法成了较好的选择．通过对聚类分析及其相关算法特性的简要论述，从多个方面系统地比较了当前这些聚

数据挖掘的聚类分析算法研究

引言：“以学生为中心”是当下教育环境所产生的一种新式教育理念，这种理念的目的与传统教育的目的不一样，不再是“老师教，学生听”，而是“老师引导，学生实践与创新”，更加注重学生的实践能力与创新能力，以适应未来所需要的能力结构，并具备足够的竞争力．该教育理念在实践中有三个基本点：

１）让学生具备自主学习能力与语言组织能力；

２）让学生拥有综合知识应用能力与团队协作能力；

３）以学生需求为出发点，让学生拥有创新能力．学生之间是有差异性的，制定的指标需要刚柔并济，除了统一指标的达成外，还需要根据具体的学生进行制定相应的达成指标，也就是我们所说的因材施教，而且社会需要的是多样化的人才，这样教学上就需要多种方式相结合，培养出高素质复合型的人才．基于“以学生为中心”的教育理念，在人工智能和互联网的高速发展下，又诞生了智能教育的理念，旨在用互联网和人工智能辅助教学，让学生学习不再局限于传统的课堂．在智能教育提出后，太原师范学院紧跟时展形势，与京东（山西）数字经济产业园、科大讯飞股份有限公司等企业合作创立智能教育产业学院．目的是采集、处理和分析教育数据，为政府相关部门提供决策依据，服务地方教育．采集和处理后的数据量非常庞大，如何更高效地分析数据成为了一大难点，为了更好地解决分析数据这一难点，选取了数据挖掘领域中的聚类分析算法进行数据分析．聚类分析算法属于机器学习算法中无监督学习算法的一种，与监督学习算法不同的是，在无监督学习算法中，数据是没有标签的，数据只拥有一系列的特征值，例如，在二维坐标系中表示的就是一些离散的点，如图１［１］．在无监督学习中，需要将一系列未标记的数据输入到算法中，然后告诉算法在结构或分布上找到数据的内部规律．比如在图１中，有一种算法将上面的数据点有效分成３类，那么这个算法就是聚类分析算法．

１问题的提出

随着中国的高速发展，现在的高校学生在校生活越来越丰富，尤其是互联网已经占据了高校学生在校生活的大部分，比如购物、游戏、网上学习、观影、聊天等等．为了能够更好地观察当下高校学生在校上网行为对成绩的影响，采集了太原师范学院２０２０级计算机科学与技术学院学生的相关数据进行分析．在大量数据中进行手工分析显然是低效的．为了有效地解决这个问题，数据挖掘技术中的聚类分析及其算法已经在实践中展现了其重要的效用．通过对聚类分析及其相关算法特性的简要论述，从多个方面系统地比较了当前这些聚类分析算法的特点和优缺点，然后基于高校学生在校上网行为的数据，将改进的ｋ－ｍｅａｎｓ算法应用于聚类分析软件ＳＰＳＳ中分析高校学生上网行为对成绩的影响．

２聚类算法分析

聚类分析是一种直接比较各种事物属性的分析方法．其中，具有相似性质的事物归属为相同属性的类别，差异性较大的事物归属为不同属性的类别．在学生产出的数据实践应用中，像是学生成绩分析，经常还需要对学生做分类判断的工作．例如，需要根据每个学生的单科成绩分布情况、专业成绩分布情况和整体成绩分布情况进行问题反馈和学习指导建议等等；或者制定一系列的疏导建议和应对措施，将其分为适用于心理问题轻微的、适用于心理问题较重的和适用于心理问题严重的疏导建议和应对措施．多年来，聚类算法得到了广泛的研究和应用，诞生了不少聚类分析算法的工具，在各种统计和分析的系统中也集成了这些工具，例如，Ｓ－Ｐｌｕｓ、ＳＰＳＳ和ＳＡＳ．聚类分析算法根据使用方法大体上分为五大类：１）划分方法（Ｐａｒｔｉｔｉｏｎｉｎｇ　Ｍｅｔｈｏｄｓ）．通过获取一个有ｎ个数据的对象集行，将这个数据对象集行划分为ｋ个子簇，每个子簇代表一个类（ｋ≤ｎ）.此外，这ｋ个子分组应满足两个条件：每组至少包含一条数据记录；每个数据记录仅属于一个组．基于此的算法有ｋ－ｍｅａｎｓ算法、ＦＣＭ算法和ＣＬＡＲＡＮＳ算法等［２］．２）层次方法（Ｈｉｅｒａｒｃｈｉｃａｌ　Ｍｅｔｈｏｄｓ）．通过对数据节点的相似程度从高到低逐步连接．该方法的优点是不需要事先设定簇的数量，我们可以选择看上去最好的簇的数量．层次聚类方法一般不单独使用，通常是与其他方法结合起来使用比较可靠，如ＢＩＲＣＨ和ＣＵＲＥ．３）基于密度的方法（Ｄｅｎｓｉｔｙ－ｂａｓｅｄ　Ｍｅｔｈｏｄｓ）．该方法的核心思想是，只要数据集的密度大于某一阈值，该数据集就会被添加到最近的聚类簇中．这类算法可发现任意形状的聚类，且对噪声数据不敏感．基于此的算法有ＤＢＳＣＡＮ［３］．４）基于网格的方法（Ｇｒｉｄ－ｂａｓｅｄ　Ｍｅｔｈｏｄｓ）．数据空间被划分为网格单元，将数据对象映射到网格单元中，并计算每个单元的密度，由差值将数据对象划分在高密度的网格单元．优点是执行效率高．ＳＴＩＮＧ就是一种基于网格的多分辨率的聚类技术［４］．５）基于模型的方法（Ｍｏｄｅｌ－ｂａｓｅｄ　Ｍｅｔｈｏｄｓ）．首先给每个簇定义一个模型，然后将满足这个模型的数据集归入其中．模型没有限制，无论是多维空间还是数据点的密度分布函数．模型是由一系列的概率分布决定，所以也被称为基于概率模型的方法．一般有两种应用方向：统计和神经网络［５］．不同的聚类分析算法都有各自的特点，表１为具有代表性的不同聚类分析类型算法的优缺点，可以作为聚类分析研究及应用的参考．

３高校学生上网行为分析

聚类分析主要有以下三个方面的应用：１）随着发展，聚类分析已经成为了统计和分析系统中不可或缺的部分，在其中作为一个能够单独处理分析数据的分布情况，观察不同簇的分布特点，选取对我们有价值的簇进一步分析的工具．例如：Ｓ－Ｐｌｕｓ能够直接提供给使用者所需要的统计分析结果，并且能以很直观的方式展示给使用者，特点是它的交互性很强，能够提供多种维度让使用者去发现数据中的价值；ＳＰＳＳ是调研、统计，尤其是政府和企业数据应用最广泛的统计分析工具．可用于各种数据的分析，最终为相关单位提供科学决策服务．ＳＡＳ是一个模块化、集成化的大型应用软件系统．优点在于完备的数据统一视图、易于使用的图形用户界面和快速简便自助的模型开发．使用ＳＰＳＳ对高校学生上网行为进行分析．在ＳＰＳＳ中调用ｋ－ｍｅａｎｓ　ｃｌｕｓｔｅｒ过程可以完成指定数据集的聚类分析，聚类分析通常是将初始数据集进行简单分类，然后通过迭代得到最终分类．为系统研究高校学生在校上网行为对成绩的影响，通过采集太原师范学院２０２０级计算机科学与技术学院的２５４名本科学生的相关数据，主要收集了这些学生的每日观影时长、每日游戏时长、每周网上学习时长和成绩．因为这些数据的数量级不同，本文将这些数据进行了Ｚ－Ｓｃｏｒｅ标准化处理，公式如下：Ｚ＝Ｘ－Ｘ－（）／Ｓ（１）式（１）中：Ｘ为原始数据，Ｘ－为Ｘ的算数平均值，Ｓ为Ｘ的标准差.说明：标准化的数据值围绕０上下波动，大于０说明高于平均水平，小于０说明低于平均水平．ＳＰＳＳ的整体操作步骤如下：激活数据分组管理窗口，定义变量名，输入数据；标准化数据，选择分析－降维－因子进行标准化数据；统计分析，选择分析－分类指定初始簇的中心点，选择ｋ－ｍｅａｎｓ算法进行迭代分类；方差分析聚类结果的ＤＳＳ，ＤＳＳ越小，聚类效果越好；重复执行前两步，使得ＤＳＳ最小化；可视化最终结果，以散点图的形式展示最终聚类的结果．最终，参加研究的２５４名同学被分成了４种类型，如表２所示，表中４种上网行为与成绩的数据均是该类型对应的中心值．由于数据有４个维度，为了在２维坐标图中展示观测数据集的分布，需要对数据进行降维，经过降维处理后，所呈现的散点分布图如图２所示．将观测数据集进行降维后，绘制出了不同类别样本点的散点分布图．其中，分布在图的左下方区域的是标号为０的样本数据点，用圆点作图；分布在图的右下方区域的是标号为１的样本数据点，用五角星作图；分布在图的左上方区域的是标号为２的样本数据点，用方块作图．分布在图的右上方区域的是标号为３的样本数据点，用三角形作图．每个类型的样本点都正好分布在类簇中心点周围，并且每个类别之间没有交集，说明每个类别之间界限清晰，即聚类效果好［６］．通过总结，表３将高校学生上网行为对高校学生学习影响情况分为以下４类，并做了相应的评价．２）聚类分析可以方便地对数据进行分析，利用分析的结果，可以对高校学生的学习情况进行督导，让高校学生拥有一个良好的学习环境．本文以改进的ｋ－ｍｅａｎｓ算法作为一个例子来说明高校学生上网行为对高校学生学习的影响．算法描述如下：输入标准化的数据和簇个数，使用基于簇中对象平均值的ｋ－ｍｅａｎｓ作为前缀算法，通过方差分析使得ＤＳＳ最小化，迭代前两步最终得到理想的目标结果．改进的ｋ－ｍｅａｎｓ算法中运用了下面两个公式：聚类结果簇中对象之间的距离平方和，即Ｅｐ＝∑ｋｉ＝１∑ｐ∈Ｃｉｐ－ｍｉ２（２）式（２）中，Ｃｉ是聚类簇，ｐ是簇中对象，ｍｉ是Ｃｉ的平均值.聚类结果簇中对象ｉ与对象ｊ之间的相异度，即ｄｉｊ２＝∑ｋδｉｊｋｄｉｊｋ２∑ｋδｉｊｋ（３）式（３）中，ｄｉｊｋ２为加权欧氏距离，即ｄｉｊｋ２＝Ｗ１Ｘｉ１－Ｘｊ１２＋Ｗ２Ｘｉ２－Ｘｊ２２＋…＋ＷｐＸｉｐ－Ｘｊｐ２（４）式（４）中，ｉ＝（Ｘｉ１，Ｘｉ２，…，Ｘｉｐ）、ｊ＝（Ｘｊ１，Ｘｊ２，…，Ｘｊｐ）是两个ｐ维数据对象.δｉｊｋ是第ｋ个值与对象ｉ、对象ｊ之间的权重.聚类结果簇中对象之间的距离平方和是聚类结果好坏的重要指标，最终要使簇中对象之间的距离平方和最小化，这样就能够使生成的聚类结果尽可能紧凑和独立［７］.３）聚类分析也可用于分析异常值．异常值是数据集中的数据明显离散很大，所以也称为离散值［８］．异常值的分析有着广泛的应用，例如故障分析，判断电路故障；偏离值分析，判断经济变化的影响因素；渐变、突变分析，看数据走势变化．

４总结

智能教育理念的产生，变革了传统的教学模式，太原师范学院紧跟时事创立了智能教育产业学院，通过采集、处理和分析教育数据，给予相关部门决策依据，服务地方教育．如何更好地分析数据是一大难点，手工显然不现实，所以数据挖掘领域的聚类分析算法成了较好的选择．研究和应用聚类分析算法，首先是阐述了不同的聚类类型的特点与优缺点，接着从聚类分析软件ＳＰＳＳ的应用和改进的ｋ－ｍｅａｎｓ算法两方面进行论述高校学生上网行为对高校学生成绩的影响，确定了高校学生受互联网影响的类型，并针对每种类型进行了相应的评价，提供了相应的处理方法．

参考文献：

［１］　钟文精，焦中明，蔡　乐．基于Ｋ－Ｍｅａｎｓ算法的学生成绩聚类分析［Ｊ］．教育信息技术，２０２１（５）：５６－５８．

［２］　刘连宏．密度聚类算法在岩石图像中的研究与应用［Ｄ］．西安：西安石油大学，２０２１．

［３］　孙海军．基于ＭａｐＲｅｄｕｃｅ和网格密度的文本聚类分析研究［Ｊ］．信息系统工程，２０１４（１０）：２５－２６．

［４］　刘柏林．基于电网运行数据集的电力系统运行评估及优化研究［Ｄ］．北京：华北电力大学（北京），２０１７．

［５］　周树功．基于Ｋ－ｍｅａｎｓ聚类分析算法的大学生在线学习行为分析［Ｊ］．信息与电脑（理论版），２０２０，３２（１６）：２２０－２２２．

［６］　赵　丽．全局Ｋ－均值聚类算法研究与改进［Ｄ］．西安：西安电子科技大学，２０１３．

［７］　况成忠，彭伟雄，黄萍．基于聚类分析的电缆局部放电分析［Ｊ］．电子世界，２０１４（９）：５１．

［８］　吕明磊，刘冬梅，曾智勇．基于改进Ｋ－ｍｅａｎｓ算法的图像检索方法［Ｊ］．计算机应用，２０１３，３３（Ｓ１）：１９５－１９８．

作者:严武军孙志其单位:太原师范学院计算机科学与技术学院

上一篇: 高校精细化管理分析下一篇: 国外临床护士培训及对我国的启...