在这个项目中,分析一个数据集的内在结构,这个数据集包含很多客户针对不同类型产品的年度采购额(用金额表示)。项目的任务之一是如何最好地描述一个批发商不同种类顾客之间的差异。这样做将能够使得批发商能够更好的组织他们的物流服务以满足每个客户的需求。
数据包含6个重要的产品类型数据:'Fresh', 'Milk', 'Grocery', 'Frozen', 'Detergents_Paper'和 'Delicatessen',通过查看了各产品采购的是否有较强相关性,将相关性高的产品去除;
对剩余产品的数据进行特征缩放,异常值检测的预处理;
进而使用主成分分析(PCA)对批发商客户数据内在结构进行分析,通过降维,降低问题复杂度;
采用K-Means 聚类算法或者是高斯混合模型聚类算法进行聚类,并比较效果,最终选择k-means聚类下维度=2的参数,得到聚类模型。