Skip to main content
Version: 2.17.1

K均值聚类

K均值聚类首先随机选择K个对象作为每个簇的初始聚类中心,然后计算剩余对象与各簇中心的距离,将其分配至距离最近的簇,再重新计算每个簇的聚类中心。该算法假设聚类对象为空间向量,且以各聚类内部的均方误差和最小为目标,不断地进行计算迭代,直到准则函数收敛。

仅支持通过可视化方式,配置读取该组件参数,参数详情如下表所示:

  • 可视化方式
页签参数参数名称是否必选参数描述默认值
数据源表名inputTable数据表
默认参数选择特征列selectedColNames输入表中选择特征列名类型。
模型参数聚类数n_clusters生成的聚类数。2
模型参数最大迭代数max_iter执行一次k-means算法所进行的最大迭代数。300
调优参数初始化次数n_init用不同的聚类中心初始化值运行算法的次数,最终解是在inertia意义下选出的最优结果。10
调优参数初始化方法init指定初始化方法包含k-means++和random。有三个可选值:k-means++,random或者ndarray向量。k-means++用一种特殊的方法选定初始聚类中发,可加速迭代过程的收敛。random随机从训练数据中选取初始质心。如果传递的是一个ndarray,则应该形如 (n_clusters, n_features) 并给出初始质心。k-means++
调优参数收敛误差tol与inertia结合来确定收敛条件。0.0001
调优参数初始化质心random_state可选用于初始化质心的生成器。如果值为一个整数,则确定一个seed。此参数默认值为numpy的随机数生成器。1
调优参数是否不改变原数据copy_x设为True,则原始数据不会被改变。设为False,则会直接在原始数据上做修改并在函数返回值时将其还原。True