聚类分析练习

基本信息

为了研究老年人对日间照料设施的需求,研究者收集了200位老人的需求偏好数据,包括护理服务、区位、可达性、经济性4个变量:

请利用该数据,基于层次聚类法回答3-5题,基于Kmeans聚类法回答6-8题。

问题

1. 为了调查研究游客在苏州市的旅游行为特征,同学们抽样调查了500位游客的个体属性(性别、年龄等), 以及他们在苏州市的活动路径(例如:拙政园->苏州博物馆->狮子林->虎丘->周庄->结束),希望能够合理地模拟预测 其他游客的活动路径。利用这些抽样数据,依次开展了A、B、C、D四项分析,请问,哪一项分析属于聚类分析:

  1. 计算每两条路径之间的相似性,找出与全体样本的平均相似度最高的10条路径,作为典型路径。
  2. 基于路径之间的相似性,自动将路径划分为不同类别,使每一类的内部尽可能相似,类间尽可能不同。
  3. 建立一个classification模型,对于路径未知的其他游客,根据性别、年龄等个体属性预测其属于B选项中的哪一种类别。
  4. 基于C选项中预测的游客类别,从该类的所有样本游客路径中随机抽取一条,作为其可能的活动路径。

2. 下列有关聚类分析算法的说法中,不准确的是:

  1. K-means聚类法比层次聚类法更适合大样本分析。
  2. K-means聚类法需要预先指定类别的数量K。
  3. 层次聚类法的聚类结果质量一般优于K-means聚类法。
  4. K-means聚类法具有一定的随机性,多次运行可能得到不一样的结果。

请使用你下载的数据,对前20个样本进行层次聚类,具体的聚类方法请选择SPSS中默认的Between-groups linkage,根据结果回答3-5题。
(在SPSS中,可以在菜单栏中点击"Data" - "Select Cases" - "If condition is satisfied",然后输入"ID<=20"这个条件,实现对前20样本的筛选。)

3. 谱系图(dendrogram):请先点击“显示树状图”按钮,然后选择与你得到的树状图最接近的结果:

4. 第3题你所选择的谱系图中,红色竖向虚线将把样本分为多少类:

其中,样本1所属的类别内共计包含多少个样本:

5. 根据第3题中所示的分类数量,得到每个样本所属的类别,请通过单因素方差分析(one-way ANOVA)检验proximity变量在不同类别之间的差异,并在下框中报告F统计量。

(提示:F统计量是一个变量的组间方差与组内方差之比,其值越大,提示该变量在不同类别之间的差异越明显。作为聚类评价指标的Calinski-Harabasz伪F指标可以视为是它的扩展,反映了所有参与聚类的变量的组间离散度与组内离散度之比。)

请根据你下载的数据,对全部200个样本进行Kmeans聚类,类别数量为4类,不需要设定初始聚类中心,默认随机中心即可,根据结果回答6-8题。
(在SPSS中,可以在菜单栏中点击"Data" - "Select Cases" - "All cases",使用全部样本。)

6. Kmeans方法对初始中心敏感,因此请先在下方输入你运行算法时的初始中心。

cluster 1 2 3 4
nursing
location
proximity
fee

然后,请输入样本1所在的类别中,共计包含多少个样本

7. Silhouette值(轮廓值)是一种常用的聚类评价指标,所有样本的平均轮廓值越高,聚类效果越好。请报告本次聚类的平均轮廓值。

8. 对聚类结果做出有意义的解释是聚类分析的重要环节。下列选项描述了老年人对养老机构的不同需求类型,请问哪一个选项最符合样本1所在的类别?

  1. 社区服务医疗型:需要护理保键服务(nursing:正值),最好15分钟内步行可达(proximity:负值),费用大部分由照护保险承担(fee:高负值),区位靠近医院(location:高正值)
  2. 地区服务生活型:仅需要基本生活服务(nursing:负值),最好班车接送(proximity:高正值),费用大部分由照护保险承担(fee:负值),区位靠近医院(location:正值)
  3. 地区自费生活型:仅需要基本生活服务(nursing:高负值),最好班车接送(proximity:正值),费用完全自费(fee:正值),区位靠近医院(location:正值)
  4. 社区福利疗养型:需要护理保键服务(nursing:正值),最好15分钟内步行可达(proximity:负值),费用大部分由照护保险承担(fee:负值),区位靠近公园文化设施(location:高负值)

9. 聚类分析中,类别数据的选择虽然没有绝对的标准,但是silhouette等评价指标具有相当的参考意义。请设定不同的类别数量,重复运行Kmeans算法,以平均silhouette值最高为标准, 以下哪一种设定的聚类效果最好?

  1. 分成2类
  2. 分成3类
  3. 分成4类
  4. 分成5类