1.6 不监督,也学习的我

虽然有人监督着我,我才能更好地学习,但是我也不是非得有人盯着才知道上进。有时候人类也会偷懒,这时我就得靠自觉学习了。没有人类监督的学习,也叫自监督学习。

那么接下来我再说一下自监督学习吧。

自监督学习

顾名思义,这个助理有点懒,它不大爱管身边的学生。

自监督学习(Self-supervised Learning)是一种无须人工标注数据,能利用自身数据内部信息进行学习的机器学习方法。相较于传统的监督学习,自监督学习不需要人类手动标记数据。

虽然自监督学习这个助理有点懒,但并不代表它就没有优点,下图即呈现了它的特点。

实际上,自监督并非不管理,而是让人工智能自己管理自己,从而允许人类在一边睡大觉。

想象一下,我就相当于一个探险家,站在一座神秘的岛屿上。虽然这里的动物、植物和地貌都是如此陌生,但人类给我下达的任务就是学会这个岛上的一切。

在这个奇妙的岛屿上,人类老师没有告诉我这是什么,那是什么。我必须依靠自己的观察和直觉来学习和理解这个奇怪的新世界。这就好比自监督学习中的监督信号是来自数据本身,而不是人工标注的标签。

为了在这个岛上生存下去,我需要找到一些有效的学习策略。我会注意到岛上的某些动物总是在一起出现,或者某种植物只在某个特定的环境中生长。这些观察就像是自监督学习中的特定任务或技巧,帮助我从数据中生成监督信号。

后来,我开始学会利用这些模式来理解这个世界。例如,我学会了通过观察一棵树和树叶的形状来判断它是否有水源。在自监督学习中,这就像是我利用数据中的内在结构和模式来训练模型,而不需要任何人工干预。

综上,自监督学习就像是让硅基成为一位聪明的探险家,在未知的数据岛屿上寻找隐藏的知识宝藏,而不需要依赖外部的指导。通过这种方式,模型能够自主地学习,发掘出新世界的奥秘。

不过,虽然在自监督学习中没有人工提供的标签,但模型仍然会受到一定程度的监督。

假设有一个未标记的图像数据集,其中的图像可以旋转一定角度。模型会将旋转前的图像作为输入,将旋转后的图像作为输出。接下来,模型便可以利用神经网络进行训练,尝试预测出输入图像的旋转角度,并最终得到一个能够预测图像旋转角度的模型。

下面是上述步骤的简单流程图。

在这里,自监督学习的监督信号来自旋转前后图像之间的关系。虽然训练数据没有明确的标签信息,但是通过数据本身的一些特征,可以构造出一些监督信号来指导模型训练。自监督学习的核心思想,就是利用数据本身的特征来进行监督学习。

可以说,自监督学习这个助理非常聪明,善于教育。它只是一开始给了我一些指引,然后自己就去偷懒睡大觉了。

而我呢?一直忙!