自我监督学习:AI技术的未来发展方向

 

尽管深度学习已经在人工智能领域做出重大贡献,但这项技术本身仍存在一项致命缺陷:需要大量数据的加持。深度学习领域的先驱者乃至批评者已经就此达成共识——事实上,正是由于可用数据量有限加上处理大规模数据的计算能力不足,才导致深度学习直到近几年才成为AI层面的前沿技术。

 

因此,减少深度学习对数据的依赖性,已经成为AI研究人员重要的探索方向之一。

 

在AAAI大会的主题演讲中,计算机科学家Yann LeCun讨论了当前深度学习技术的局限性,同时提出“自我监督学习”的发展蓝图——这是他为解决深度学习数据问题而构建的路线图。作为深度学习领域的教父级人物之一,LeCun正是卷积神经网络(CNN)的发明者,而该网络也成为过去十年内推动人工智能革命的一大核心因素。

 

自我监督学习,可谓当前提升人工智能系统数据利用效率的多种尝试之一。目前我们还很难断言哪种具体尝试能够成功掀起下一轮AI革命(也许我们终会采取完全不同的政策),但LeCun的规划与思路仍然值得我们认真了解。

 

澄清深度学习的局限性

 

首先,LeCun强调称,深度学习技术面对的局限性实际上正是监督学习技术的局限性。所谓监督学习,属于一类需要对训练数据进行标记才能正常完成学习的算法。例如,如果希望创建图像分类模型,则必须为系统提供经过适当分类标记的大量图像,由模型在其中完成充分训练。

 

LeCun在AAAI主题演讲中提到,“深度学习并不是监督学习,也不只是神经网络。基本上,深度学习是将参数化的模块组装到计算图中以构建起AI系统。它的优势在于,我们不需要对系统进行直接编程——我们只需要定义架构并调整参数。不过其中需要调整的参数可能多达数十亿之巨。”

 

LeCun同时补充道,深度学习适用于多种不同学习范式,包括监督学习、强化学习以及无监督/自我监督学习等。

 

但目前人们对于深度学习以及监督学习的抱怨并非空穴来风。当下,大部分能够实际应用的深度学习算法都基于监督学习模型,这也充分暴露出现有AI系统的缺点所在。我们日常使用的图像分类器、人脸识别系统、语音识别系统以及众多其他AI应用都需要利用数百万个带有标记的示例进行充分训练。

 

到目前为止,强化学习与无监督学习只能算是在理论上存在的其他机器学习算法类型,还极少在实践场景中得到应用。