集成学习 algorithms中的bagging和boosting的区别是什么?

Bagging和Boosting都是一种集成学习方法。它们之间存在以下主要区别:
i、采样方式
Bagging使用带放回的采样方法,创建多个相互独立的训练数据集。
Boosting使用加权采样的方法,后一个模型利用前一个模型的错误进行采样。

ii、模型关系
Bagging相互独立,后一个模型不利用前一个模型的信息。
Boosting关联性很强,后一个模型利用前一个模型的结果。

iii、集成效果
Bagging通过集成相互独立的模型,减少方差。
Boosting通过后续模型强化前面的模型,降低偏差。

iv、故障检测
Bagging可以通过单模型故障检查集成模型效果。
Boosting的各模型强依赖性较高,单个模型故障严重影响。

v、并行计算
Bagging可进行并行计算,利用多核CPU。
Boosting需要按顺序训练,难以并行。

总的来说,bagging和boosting的主要区别在于:

  1. 采样方式不同(放回回 vs 加权)
  2. 模型关系(独立 vs 依赖)
  3. 集成效果(减少方差 vs 降低偏差)
  4. 故障检测(有 vs 没有)
  5. 并行计算(可以 vs 不能)

bagging通过独立模型集成,降低方差。
boosting通过依赖模型集成,降低偏差。
两种集成方法各有优劣,可以互相补充。