Datawhale 零基础入门CV赛事-Task5 模型集成

在上一章我们学习了如何构建验证集,如何训练和验证。本章作为本次赛题学习的最后一章,将会讲解如何使用集成学习提高预测精度。

1 模型集成
本章讲解的知识点包括:集成学习方法、深度学习中的集成学习和结果后处理思路。

2 集成学习优点

  • 考虑一组预测模型$f_1,…,f_l$,不同的预测模型在数据上有不同的表现,所以这样的话通过加权等方法,集百家之所长。以期获得更好的成绩。
  • 集成学习可以使用更多的模型,不用人工的比较各个模型之间优劣。

  1. 集成学习方法

在数十年前为了在机器学习竞赛中获得更好的成绩,集成学习的使用是大家的普遍选择。

  • 2009Netflix奖竞赛上,优胜者Yehuda Koren使用了超过800中预测模型的集成,最后成功的获得了最好成绩。
  • 在2011年KDD-Cup音乐推荐竞赛上,台湾国立大学的研究生课程:将221个预测模型进行集成,最后获得了最好成绩,而当年的第三名的是来自SJTU-HKUST的联合团队,他们完成了16个预测模型的集成。
  • 2012年的任务一预测用户偏好item中,同样来自上海交通大学的ACMClass@SJTU 团队夺得冠军。因为该模型由上海交通大学的研究生课程提供了数百种算法的集成。

上面这些实际的例子说明了集成学习的有效性。

4 集成学习方法

集成学习的两种常见思路

  • 对于不同模型在同一数据集上面进行训练,然后得出预测结果并对结果进行加权,获得最后的结果。
  • 而现在模型的选择相同较少,大多数就固定了可选择的模型,这种情况下不可能如十年前那样选择几十上百种数据,因而还有一种对于同一模型的集成学习,就是选择随机丢失某些训练集数据,然后进行训练获得不同的结果,并且对模型进行集成。
Last modification:June 2nd, 2020 at 05:00 pm
If you think my article is useful to you, please feel free to appreciate