第2章,聚类分析PPT课件.ppt

时间：2021-10-26 14:26:09 来源：学生联盟网

复杂问题的简化与分组聚类分析,第2章,内容提要,2.1 聚类分析概述,聚类分析概述,聚类分析是多元分析的主要方法之一，主要用来对大量的样品或变量进行分类。

　　同一类别内的个体具有尽可能高的同质性。

　　类别之间应具有尽可能高的异质性。

　　聚类的实质根据样品（变量）间的亲疏关系将样品（变量）分为类，相近的归为一类，差别较大的归为另一类。所获得的分类应有一定的意义。,聚类分析概述,聚类分析的一般规则亲疏关系的判别相似性与距离（不相似性）将相似性较大的点或距离较小的点归为同一类将相似性较小的点或距离较大的点归为不同类根据分类的对象样品/记录聚类clustering for cases/individuals 指标/变量聚类clustering for variables,聚类分析数据格式,k,聚类分析的变量类型,连续变量和分类变量在聚类时常用的测量方式不同。

　　连续变量一般采用欧氏平方距离分类变量一般用卡方作为距离指标多数传统聚类方法只能使用其中单一各类的变量进行分析数据中如果同时有这两类变量，可考虑只采用连续变量进行分析；或者将分类变量转换成虚拟变量的形式，按照连续变量进行分析,聚类分析的应用,区域发展水平根据经济及社会发展水平把全国各地市（县）分类产品市场细分按照消费者的需求特征分成不同的细分市场客户分类银行根据贷款者的收入水平、抵押状况、信用记录对信息，对贷款者的资信分类并给予相应的贷款额度,聚类分析的类型,根据分类的方法系统/层次聚类hierarchical clustering 开始将样品/指标各视为一类,根据类与类之间的距离/相似程度,将最相似的类加以合并,再计算新类与其他类之间的相似程度,并选择最相似的类加以合并,每合并一次就减少一类,不断重复,直到所有样本/指标都合并为一类。

　　快速/K-均值/动态聚类k-means clustering 开始按照一定方法选取一批聚类的中心，让样品向最近的聚心凝聚，然后按最近距离原则不断修改不合理分类，直到合理为止。,聚类分析要注意的问题,聚类分析过程基本上与分布理论和显著性检验无关，一般不从样本推断总体。

　　聚类分析可通过将众多个体聚集成几个类别而简化数据，可作为其他多元统计的预备过程。

　　聚类分析主要用于探索性的研究，最终的解需要研究者的主观判断和后续分析。

　　聚类分析的解完全依赖于所选择的聚类变量，增删变量对于聚类解会产生实质性影响。,2.2 相似性度量,相似性度量,在聚类分析技术的发展过程中，形成了很多种测度相似性的方法，主要分为三类相关测度距离测度关联测度,一、相关测度,应用最广泛的相关测度是皮尔逊相关系数（Pearson correlation），聚类分析中用它来测量案例之间的相似程度。,原始数据,一、相关测度,相关测度更大程度上反映了案例在聚类变量上变化模式的相似性，变量值大小的差异对其影响不大，也被称为形状测度。,一、相关测度,相关测度的缺点在于忽视了变量值大小的差异，高度相关的两个样本提供的信息可能相差甚远。

　　聚类分析的大部分应用中更重视变量值大小的差异，而不是值的变化模式，以此相关测度在聚类分析中的应用并不普遍。,相关测度相关系数,二、距离测度,样品间的亲疏关系通常用距离描述 Block距离欧式距离明氏距离切比雪夫距离马氏距离兰氏距离,（一）距离样本间的亲疏关系,距离的定义距离测度的出发点是把每个案例看成是m维空间中（m 为变量个数）的一个点。

　　在m维空间中定义点与点的距离，距离越近的点，相似程度越高，越可能归为一类。

　　dij满足下列条件 dij0 dii 0 dij dji dij dik dkj,1.绝对距离（block）,两样品p个指标值绝对差的总和,2.欧氏（Euclidian ）距离,两样品p个指标值之差平方和的平方根,欧式距离是最广泛使用的距离指标。,3.切比雪夫距离（Chebychev ）,两样品p个指标值绝对差的最大值,4.明氏（Minkowski ）距离,两样品p个指标值绝对差的q次幂总和的q次方根,明氏距离的缺点,各指标同等对待（权数相同），不能反映各指标变异程度上的差异距离的大小与各指标的观测单位有关，有时会出现不合理结果没有考虑指标之间的相关性,当各指标的测量值相差悬殊时，可以先对数据标准化，然后用标准化后的数据计算距离。,5.马氏Mahalanobis 距离,马氏距离既排除了各指标间相关性的干扰，并不受各指标量纲的影响。,（二）距离测度,和相关测度不同，距离测度更侧重于变量值的大小，不考虑案例在聚类上的变化模式，认为靠得近的案例为相似案例,距离测度欧式距离,按照距离越近，相似度越高的原则，2和3归为一类，1、4、5归为一类。,三、关联测度,关联测度用于度量聚类变量为分类变量的相似性。

　　简单匹配系数对于二分类变量，关联测度是要估计研究对象在回答这些问题时的一致程度。

　　简单匹配系数是两个案例在所有聚类变量上答案相同的情况出现的频率。

　　雅科比系数（Jaccards Coefficient）对简单匹配系数的改进，同样适用于二分类变量,（一）简单匹配系数,SPSS 距离测度方法选项,对于定距或定比变量欧氏距离（Euclidean）欧氏平方距离（Squared Euclidean 变量矢量的余弦Cosine 皮尔逊相关距离（Pearson）切比雪夫距离（Chebychev）绝对距离（Block）明氏距离（Minkowski）设定距离（Customized，距离是一个绝对幂的度量，即变量绝对值的第p次幂值和的第r次根）,2.3 系统聚类法Hierarchical Clustering ,系统聚类法,系统聚类也叫谱系聚类，一般用于待分类的个体（变量）数比较小的情况。可分为聚集法和分割法。

　　聚集法把每一个案各看成一类，将最“靠近”（距离最小或相似系数最大）的点首先聚类，然后逐步合并，直到合为一大类分割法把所有个案看成一类，然后把最不相似的分为两类，直到把每个个案都分成一类聚集法比分割法更常用。,聚集法与分割法图示,类与类间的距离,最长距离,最短距离,重心距离,SPSS系统聚类方法选项,最近邻元素也叫最短距离法。类与类之间的距离是两类间两两样品间的最短距离。

　　最远邻元素也叫最长距离法。类与类之间的距离是两类间两两样品间的最长距离。

　　中位数聚类法计算两类之间所有配对观测的距离，取距离的中位数代表类的距离。,最短距离法易造成链接聚合，形成一个大类。

　　最长距离法会加大合并后的类与其他类的距离。

　　两种方法都只用到部分观测，受极端值影响大。,不常用,SPSS系统聚类方法选项,组间联接法在计算距离时只考虑两类之间样品之间距离的平均组内联接法在计算距离时把两组所有样品之间的距离都考虑在内。,组间联接与组内联接都属于平均距离法，聚类时用到了全部的观测点，是常用的系统聚类方法。,SPSS系统聚类方法选项,质心聚类法类与类间的距离用各自重心间的欧式距离表示。

　　离差平方和法（Ward法）其分类思想和方差分析类似。即在分类的过程中，使类内元素间的变差平方和尽可能小，而类间元素的变差平方和尽可能大。,质心聚类法对类别有较好的代表性，但并未充分利用各样本的信息。

　　离差平方和法的分类效果较好，常用。,系统聚类法的步骤,【案例2.1】我国地区生活水平差异的聚类分析,数据“国民经济数据.sav”选取了2002年中国31个省市的国民经济数据，要求运用系统聚类方法对地区差异进行研究。

　　（一）数据的初步分析（变量的描述统计）,描述统计结果表明变量之间存在很大的量纲差异，聚类分析前首先应对数据进行标准化处理。,【案例2.1】我国地区生活水平差异的聚类分析,（二）层次聚类分析 1、分析分类系统聚类,选入要聚类的变量,标签变量，通常为定类变量,聚类方式,【案例2.1】我国地区生活水平差异的聚类分析,（二）层次聚类分析 1、分析分类系统聚类,聚类方法本例采用离差平方和法,距离测量方法本例采用欧氏平方距离,将变量标准化,输出聚类方案结果,【案例2.1】我国地区生活水平差异的聚类分析,（二）层次聚类分析分析分类系统聚类,绘制选项卡用于输出树状图和冰柱图,保存选项卡用于保存聚类数为3-8类情况下各省市所属的类。,表1聚类过程,3此时代表 3、17两条记录组成的类别，因此第2步是3、17、12三条纪录合并,第1步3、17两条纪录合并。,聚类过程的步骤号,表1聚类过程,表示参与合并的类别在第几步中第一次出现。0表示该记录第一次出现在聚类过程中。,纪录1在第24步中第一次出现。纪录9在本步（第26步）第一次出现。,表示在这一步中合并的类别，下一次将在第几步中与其他类合并。,记录1和记录2将在第26步中参与合并。,表1聚类过程,聚类系数表示被合并类别间的距离大小,聚类系数可以根据该系数的变化来判断数据应该被分成多少类。

　　当两个相邻步骤系数变化远大于前面相邻步骤变化时，便可以大致确定从统计意义上讲，应该将聚类过程进行到那里的类别数是较为合适的。,第25步和第26步之间系数差距出现大的变化。从而可以大致认为聚类过程结束于第26步是合理的。,表2 聚类方案,图1 冰柱图,纵轴表示分类的个数,如果选择五类，则高度小于5个4个冰柱将记录分成五类。,横轴表示各类别之间的相对距离大小。,图2树状图,划分类别从右往左，竖线断开。,分成三类,分类数的确定确定分类数是聚类分析迄今尚未完全解决的问题之一。

　　实际中主要根据研究的目的和需要，选择合适的分类数,图2树状图,分成六类,如果分成五类，北京、天津和上海在聚类过程中首先合并，可归为一类。,分类数的确定,Demirmen曾提出了根据树状结构图来分类的准则任何类都必须在邻近各类中是突出的，即各类重心之间距离必须大。

　　各类所包含的元素都不要过分地多。

　　分类的数目应该符合使用目的。

　　若采用几种不同的聚类方法处理，则在各自的聚类图上应发现相同的类。,分类数的确定,系统聚类中每次合并的类与类之间的距离也可以作为确定类数的一个辅助工具。首先把离得近的类合并，在并类过程中聚合系数呈增加趋势，聚合系数小，表示合并的两类的相似程度较大，两个差异很大的类合到一起，会使该系数很大。

　　如果以y轴为聚合系数，x轴表示分类数，画出聚合系数随分类数的变化曲线，会得到类似于因子分析中的碎石图，可以在曲线开始变得平缓的点选择合适的分类数。,【案例2.1】我国地区生活水平差异的聚类分析,（三）聚类结果的验证 1、对类别的进一步验证方法对于聚类结果输出变量CLU8_1-CLU3_1进行频数分析。,如果分成六类，则第4类的类别过少。因此分成五类更合适。,【案例2.1】我国地区生活水平差异的聚类分析,（三）聚类结果的验证 2、对类别间的差异进行显著性检验（1）使用Means过程输出类别的描述性统计量,【案例2.1】我国地区生活水平差异的聚类分析,（三）聚类结果的验证 2、对类别间的差异进行显著性检验（2）一元方差分析,结果表明，各个类别之间的五个变量存在显著差异。,【案例2.1】我国地区生活水平差异的聚类分析,（三）聚类结果的验证 3、总结各类别的主要特征方法将变量进行标准化处理后绘制线图。,2.4 K-均值聚类法 K-Means,K-均值聚类法,K均值聚类法也叫快速聚类法。Macqueen于1967年提出的，其思想是把每个样品聚集到其最近（均值）类中去。

　　与系统聚类的主要区别非层次性递推过程从初始分类开始不断优化的过程当样本量很大时，用系统聚类法的计算工作量极大，作出的树状图也十分复杂,不便于分析，用快速聚类较好。,K-均值聚类法,K均值聚类法的步骤 1、把样品粗略分成K个初始类，将K个类的重心作为初始凝聚点，K往往由研究者自己指定； 2、对凝聚点以外的所有样品逐个归类，将每个样品归入凝聚点离它最近的类中（通常用标准化数据或非标准化数据计算欧氏距离）。重新计算接受新样品的类和失去样品的类的均值，作为凝聚点； 3、重复第2步，直到达到一定的收敛标准或达到分析者事先指定的迭代次数。,K-均值聚类法,样品的最终聚类在某种程度上依赖于最初的划分，或种子点的选择。

　　为了检验聚类的稳定性，可用一个新的初始分类重新检验整个聚类算法。如最终分类与原来一样，则不必再行计算；否则，须另行考虑聚类算法。,K-均值聚类法,K-均值聚类法,容易产生局部最优而非全局最优，初始分类很重要,【案例2.2】移动电话客户通话情况的聚类分析,数据“移动电话.sav”反映了移动电话客户的通话情况，包含6个变量。现希望对移动用户进行细分，以了解他们不同的通话消费习惯。根据前期的调研，研究者认为移动用户应当被分为5个主要群体。

　　（一）数据的初步分析（变量的描述统计）,变量的量纲虽然一致，但变量值的离散程度较高，因此先对数据进行标准化。,【案例2.2】移动电话客户通话情况的聚类分析,（二）K-Means聚类分析 1、分析分类K均值聚类,指定分类数目,【案例2.2】移动电话客户通话情况的聚类分析,（二）K-Means聚类分析 1、分析分类K均值聚类,通常指定最大迭代次数为100。即当迭代100次或收敛性为0时，迭代中止。,保存聚类成员，则在数据文件中对每条记录给出所属的类别。,方差分析用于分析聚类结果中各类别是否有显著差异。,表1初始聚类中心,初始聚类中心给出了每一类别初始定义的中心点。本例中的中心点由SPSS自动生成。

　　由SPSS自动生成的初始中心点会与记录的排列顺序有关，因此要尽量避免出现有规律的排列。必要时可能随机数排序打乱顺序。,单元格内的值是各个类别在各个变量上的平均值。,表3最终聚类中心,方差分析表即按类别分组后进行单因素方差分析。,表4方差分析表,可根据F值的大小近似判断各个变量对聚类结果的重要程度排序。,表5各类别中的记录数,第2类人群最多，第5类人群最少。,第一类总通话时间长、工作日上班通话时间长、国际通话时间长的“高端商用客户”，443人。,第二类总通话时间短、各时段通话时间都短的“少使用低端客户”1239人,第三类总通话时间居中，工作日上班时间通话时间较长的“中端商用客户”831人。,第四类总通话时间居中，工作日下班时间通话时间较长的“中端日常用客户”806人。,第五类每次通话时间长，周末通话时间短的“长聊客户”。86人。,2.5 两步聚类法 TwoStep Cluster,两步聚类法简介,两步聚类法是一种智能化的聚类方法，用于解决海量数据、复杂类别结构时的聚类分析问题。

　　参加两步聚类的变量可以是连续变量，也可是离散变量；也可根据一定的统计标准“自动地”建议甚至确定最佳的类别数，结果的正确性更有保障。,【案例2.3】汽车购买者的市场区隔,数据“Twostep.sav”收集了汽车购买者的年龄、收入、家庭大小及性别、职业，试对其进行分类，并总结每一类的主要特点。,聚类模型概要给出了各类别中各变量的主要分布特征第一类是男性、军人、年龄平均为40岁；第二类是女性、公务员，年龄平均为25岁。

　　同此，该表给出了这些变量在聚类分析中的重要性。如果有的变量重要性比较低，可以考虑剔除这些变量。,本章练习,数据“城市经济综合竞争力.sav”收集了我国35座城市地区综合竞争力的10项指标，试用层次聚类法针对地区差异进行研究。

　　数据“城镇居民家庭收入.sav”是我国2005年各地城镇居民平均每人全年家庭收入来源统计表，试对全国各地区的收入来源结构进行分析。

　　数据“汽车购买者.sav”汇总了汽车购买者的收入、年龄、家庭大小，试分析汽车购买者的市场区隔。,73,Thank you,

上一篇：2012年全国各类考试时间表下一篇：2021年校医室工作计划范文