有/无监督学习

    区分有监督学习与无监督学习,主要看模型建立过程中是否需要使用带有标签的数据。例如:

    在分类(classification)问题中,训练分类器(classifier)时,需要给定一些已知类别的数据。分类器基于这些数据中进行学习,从而获取对未知数据进行分类的能力。这种使用训练数据(有标签的数据)的学习过程,就是有监督学习(supervised learning)。

    而在另一种情形的聚类(clustering)问题中,模型仅需将相似的实例汇聚起来。因此,只要指定了相似度计算方式与汇聚方法,聚类模型就可以开始工作了。这种未使用训练数据进行建模的学习过程,被称作无监督学习(unsupervised learning )。

    此外,还存在半监督学习(semi-supervised learning)。在此情形中,有/无标签的数据同时参与了模型的构建。如何将两种数据足够好的结合使用,是半监督学习需要解决的问题。一个具体的例子是深度学习(deep learning):其中有标签数据的使用类似于有监督学习;而无标签的使用则用于特征选择方面。即,选择出一组描述数据本质的“基特征”,其能够完整表示问题关心的数据集。由此,同时实用的有/无标签的数据,进行模型的建立。