GBDT二分类
GBDT二分类算法的原理是设置阈值,如果特征值大于阈值,则为正例,反之为负例。
仅支持通过可视化方式,配置读取该组件参数,参数详情如下表所示:
- 可视化方式
页签 | 参数 | 参数名称 | 是否必选 | 参数描述 | 默认值 |
---|---|---|---|---|---|
数据源 | 表名 | inputTable | 是 | 数据表 | 无 |
默认参数 | 选择特征标签列 | labelColName | 是 | 输入表中作为标签的列 | 无 |
模型参数 | 选择损失函数 | loss | 是 | 损失函数,包括deviance(对数似然)和exponential(指数损失)。 | deviance |
模型参数 | 最大弱学习器个数 | n_estimators | 是 | 最大弱学习器个数,调参时要注意过拟合或欠拟合,一般和learning_rate一起考虑。 | 100 |
模型参数 | 学习率步长 | learning_rate | 是 | 每个弱学习器的权重缩减系数,取值范围0-1,当取值为1时,相当于权重不缩减。较小的learning_rate相当于更多的迭代次数。 | 0.1 |
模型参数 | 子采样 | subsample | 是 | 取值范围(0,1],当取值为1,相当于无采样。小于1,按比例采样,得到的样本去构建弱学习器。 | 1 |
调优参数 | 树分裂时考虑的最大特征数 | max_features | 是 | 树分裂时考虑的最大特征数,默认为None,也就是考虑所有特征。可以取值有:log2,auto,sqrt。 | None |
调优参数 | CART最大深度 | max_depth | 是 | CART最大深度 | 10 |
调优参数 | 划分节点时需要保留的样本数 | min_samples_split | 是 | 当某节点的样本数小于某个值时,就当做叶子节点,不允许再分裂。默认是2。 | 2 |
调优参数 | 叶子节点最少样本数 | min_samples_leaf | 是 | 如果某个叶子节点数量少于某个值,会同它的兄弟节点一起被剪枝。默认是1。 | 1 |
调优参数 | 叶子节点最小的样本权重和 | min_weight_fraction_leaf | 是 | 如果小于某个值,会同其兄弟节点一起被剪枝。一般用于权重变化的样本。默认是0。 | 0 |