Skip to main content
Version: 2.17.1

GBDT二分类

GBDT二分类算法的原理是设置阈值,如果特征值大于阈值,则为正例,反之为负例。

仅支持通过可视化方式,配置读取该组件参数,参数详情如下表所示:

  • 可视化方式
页签参数参数名称是否必选参数描述默认值
数据源表名inputTable数据表
默认参数选择特征标签列labelColName输入表中作为标签的列
模型参数选择损失函数loss损失函数,包括deviance(对数似然)和exponential(指数损失)。deviance
模型参数最大弱学习器个数n_estimators最大弱学习器个数,调参时要注意过拟合或欠拟合,一般和learning_rate一起考虑。100
模型参数学习率步长learning_rate每个弱学习器的权重缩减系数,取值范围0-1,当取值为1时,相当于权重不缩减。较小的learning_rate相当于更多的迭代次数。0.1
模型参数子采样subsample取值范围(0,1],当取值为1,相当于无采样。小于1,按比例采样,得到的样本去构建弱学习器。1
调优参数树分裂时考虑的最大特征数max_features树分裂时考虑的最大特征数,默认为None,也就是考虑所有特征。可以取值有:log2,auto,sqrt。None
调优参数CART最大深度max_depthCART最大深度10
调优参数划分节点时需要保留的样本数min_samples_split当某节点的样本数小于某个值时,就当做叶子节点,不允许再分裂。默认是2。2
调优参数叶子节点最少样本数min_samples_leaf如果某个叶子节点数量少于某个值,会同它的兄弟节点一起被剪枝。默认是1。1
调优参数叶子节点最小的样本权重和min_weight_fraction_leaf如果小于某个值,会同其兄弟节点一起被剪枝。一般用于权重变化的样本。默认是0。0