Skip to main content
Version: 2.17.1

K近邻

K近邻算法进行分类的原理是针对预测表的每行数据,从训练表中选择与其距离最近的K条记录,将这K条记录中类别数量最多的类,作为该行的类别。

仅支持通过可视化方式,配置读取该组件参数,参数详情如下表所示:

  • 可视化方式
页签参数参数名称是否必选参数描述默认值
数据源表名inputTable数据表
默认参数选择特征标签列labelColName输入表中选择标签列名类型。
模型参数默认邻居的数量n_neighbors用于kneighbors查询的默认邻居的数量。5
模型参数权重函数weights用于预测的权重函数包括uniform、distance。uniform统一的权重.在每一个邻居区域里的点的权重都是一样的;distance权重点等于他们距离的倒数。使用此函数,更近的邻居对于所预测的点的影响更大;callable,一个用户自定义的方法,此方法接收一个距离的数组,然后返回一个相同形状并且包含权重的数组。uniform
调优参数最近邻选择函数algorithm包括auto、ball_tree、kd_tree、brute。ball_tree是可以克服kd树高纬失效,其构造过程是以质心C和半径r分割样本空间,每个节点是一个超球体;kd_tree构造kd树存储数据以便对其进行快速检索的树形数据结构,kd树也就是数据结构中的二叉树。以中值切分构造的树,每个结点是一个超矩形,在维数小于20时效率高;brute使用暴力搜索,也就是线性扫描,当训练集很大时,计算非常耗时;auto会基于传入fit方法的内容,选择最合适的算法。auto
调优参数叶子数量leaf_size传入BallTree或者KDTree算法的叶子数量。此参数会影响构建、查询BallTree或者KDTree的速度,以及存储BallTree或者KDTree所需要的内存大小。此可选参数根据是否是问题所需选择性使用。30