李宏毅机器学习课程笔记-10.1半监督学习简介

有监督学习(Supervised Learning)

训练集数据为$\{ (x^r,\ \hat y^r) \}_{r=1}^R$,其中每组数据包括算法的输入与输出(标签)。

半监督学习(Semi-supervised Learning)

训练集数据为$\{ (x^r,\ \hat y^r) \}_{r=1}^R+\{ x^u\}_{u=R+1}^{U+R}$,即其中部分数据有标签而大量数据没有标签($U>>R$)。

半监督学习可以分为以下2种情况

  1. Transductive Learning

    unlabeled data is the testing data,只使用testing data中的feature,并没有使用testing data中的label,所以并没有cheating。

    适用于已知testing data的情况,比如kaggle比赛。

  2. Inductive Learning

    unlabeled data is not the testing data,完全不使用testing data。

    适用于testing data未知的情况,这是大多数情况。

为什么需要半监督学习

其实缺的并不是数据,缺少的是有标签的数据。利用这些大量的没有标签的数据进行学习,这是非常有价值的。

为什么半监督学习有用

The distribution of the unlabeled data tell us something:无标注数据的分布可以告诉我们一些东西

img

半监督学习往往伴随着假设,而该假设的合理与否决定了结果的好坏程度。如上图所示,在猫狗图片分类中一只狗被认为是一只猫,这很可能是由于这2张图片的背景都是绿色,因此假设的合理性至关重要。


Github(github.com):@chouxianyu

Github Pages(github.io):@臭咸鱼

知乎(zhihu.com):@臭咸鱼

博客园(cnblogs.com):@臭咸鱼

B站(bilibili.com):@绝版臭咸鱼

微信公众号:@臭咸鱼

转载请注明出处,欢迎讨论和交流!