K近邻
K近邻算法进行分类的原理是针对预测表的每行数据,从训练表中选择与其距离最近的K条记录,将这K条记录中类别数量最多的类,作为该行的类别。
仅支持通过可视化方式,配置读取该组件参数,参数详情如下表所示:
- 可视化方式
页签 | 参数 | 参数名称 | 是否必选 | 参数描述 | 默认值 |
---|---|---|---|---|---|
数据源 | 表名 | inputTable | 是 | 数据表 | 无 |
默认参数 | 选择特征标签列 | labelColName | 是 | 输入表中选择标签列名类型。 | 无 |
模型参数 | 默认邻居的数量 | n_neighbors | 是 | 用于kneighbors查询的默认邻居的数量。 | 5 |
模型参数 | 权重函数 | weights | 是 | 用于预测的权重函数包括uniform、distance。uniform统一的权重.在每一个邻居区域里的点的权重都是一样的;distance权重点等于他们距离的倒数。使用此函数,更近的邻居对于所预测的点的影响更大;callable,一个用户自定义的方法,此方法接收一个距离的数组,然后返回一个相同形状并且包含权重的数组。 | uniform |
调优参数 | 最近邻选择函数 | algorithm | 是 | 包括auto、ball_tree、kd_tree、brute。ball_tree是可以克服kd树高纬失效,其构造过程是以质心C和半径r分割样本空间,每个节点是一个超球体;kd_tree构造kd树存储数据以便对其进行快速检索的树形数据结构,kd树也就是数据结构中的二叉树。以中值切分构造的树,每个结点是一个超矩形,在维数小于20时效率高;brute使用暴力搜索,也就是线性扫描,当训练集很大时,计算非常耗时;auto会基于传入fit方法的内容,选择最合适的算法。 | auto |
调优参数 | 叶子数量 | leaf_size | 是 | 传入BallTree或者KDTree算法的叶子数量。此参数会影响构建、查询BallTree或者KDTree的速度,以及存储BallTree或者KDTree所需要的内存大小。此可选参数根据是否是问题所需选择性使用。 | 30 |