Bias和Variance如何影响模型性能?

Bias和Variance是影响模型性能的两个重要来源:
一、Bias
Bias是模型本身存在的偏差,表示模型无法学习到数据的全部模式。高偏差往往导致欠拟合。
在下图中,蓝色曲线代表具有较高偏差的模型:
高Bias通常的性能表现:

  • 低的训练集score
  • 低的测试集score

降低Bias的方法包括:

  • 增加模型复杂度
  • 增加新特征

二、Variance
Variance表示由训练数据随机波动而引起的变化。高Variance往往导致过拟合。
在下图中,绿色曲线代表具有较高Variance的模型:
高Variance通常的性能表现:

  • 高的训练集score
  • 低的测试集score

降低Variance的方法包括:

  • 减少模型复杂度
  • 使用正则化等技巧

三、权衡
在实际应用中,模型存在Bias和Variance。需要权衡以达到好的泛化性能。
简单的模型存在高Bias但是低Variance。
复杂的模型存在低Bias但是高Variance。
在下图中,橙色曲线代表Bias和Variance相对平衡的模型:

总的来说:

  • Bias代表模型本身的偏差
  • Variance代表数据随机波动的影响
  • Bias主要导致欠拟合
  • Variance主要导致过拟合
  • 需要在Bias和Variance中找到平衡

合理降低Bias和Variance可以有效提升模型的泛化能力。