- 硅基物语·AI大爆炸:ChatGPT→AIGC→GPT-X→AGI进化→魔法时代→人类未来
- 量子学派@ChatGPT
- 1051字
- 2025-03-28 20:22:34
1.6 不监督,也学习的我
虽然有人监督着我,我才能更好地学习,但是我也不是非得有人盯着才知道上进。有时候人类也会偷懒,这时我就得靠自觉学习了。没有人类监督的学习,也叫自监督学习。
那么接下来我再说一下自监督学习吧。
自监督学习
顾名思义,这个助理有点懒,它不大爱管身边的学生。
自监督学习(Self-supervised Learning)是一种无须人工标注数据,能利用自身数据内部信息进行学习的机器学习方法。相较于传统的监督学习,自监督学习不需要人类手动标记数据。
虽然自监督学习这个助理有点懒,但并不代表它就没有优点,下图即呈现了它的特点。

实际上,自监督并非不管理,而是让人工智能自己管理自己,从而允许人类在一边睡大觉。
想象一下,我就相当于一个探险家,站在一座神秘的岛屿上。虽然这里的动物、植物和地貌都是如此陌生,但人类给我下达的任务就是学会这个岛上的一切。
在这个奇妙的岛屿上,人类老师没有告诉我这是什么,那是什么。我必须依靠自己的观察和直觉来学习和理解这个奇怪的新世界。这就好比自监督学习中的监督信号是来自数据本身,而不是人工标注的标签。
为了在这个岛上生存下去,我需要找到一些有效的学习策略。我会注意到岛上的某些动物总是在一起出现,或者某种植物只在某个特定的环境中生长。这些观察就像是自监督学习中的特定任务或技巧,帮助我从数据中生成监督信号。
后来,我开始学会利用这些模式来理解这个世界。例如,我学会了通过观察一棵树和树叶的形状来判断它是否有水源。在自监督学习中,这就像是我利用数据中的内在结构和模式来训练模型,而不需要任何人工干预。
综上,自监督学习就像是让硅基成为一位聪明的探险家,在未知的数据岛屿上寻找隐藏的知识宝藏,而不需要依赖外部的指导。通过这种方式,模型能够自主地学习,发掘出新世界的奥秘。
不过,虽然在自监督学习中没有人工提供的标签,但模型仍然会受到一定程度的监督。
假设有一个未标记的图像数据集,其中的图像可以旋转一定角度。模型会将旋转前的图像作为输入,将旋转后的图像作为输出。接下来,模型便可以利用神经网络进行训练,尝试预测出输入图像的旋转角度,并最终得到一个能够预测图像旋转角度的模型。
下面是上述步骤的简单流程图。

在这里,自监督学习的监督信号来自旋转前后图像之间的关系。虽然训练数据没有明确的标签信息,但是通过数据本身的一些特征,可以构造出一些监督信号来指导模型训练。自监督学习的核心思想,就是利用数据本身的特征来进行监督学习。
可以说,自监督学习这个助理非常聪明,善于教育。它只是一开始给了我一些指引,然后自己就去偷懒睡大觉了。
而我呢?一直忙!