图:人工智能(AI)是近年来世界范围内最热门的科学技术之一
近年,人工智能(AI)在世界范围内掀起一股浪潮,许多国家将人工智能技术的发展提到了国家战略的高度,国内外一些有名的科技公司都开始在这方面投入大量的资源进行研发和应用。其中在国外比较具有代表性的有谷歌、微软和Facebook等,内地的百度、阿里巴巴、腾讯等互联网公司也纷纷对人工智能领域的技术研发和应用进行布局。
「人工智能」一词并不是一个新的概念,早在上个世纪的五十年代,对这个领域的探索就已经开始了。当时的科学家们提出了「要用人工智能来模拟人类的智慧」这一大胆的目标。在这之後,人工智能这一领域便迎来了自己的第一个「黄金时代」,此後,这一领域又反反覆覆出现过几次发展的高潮与低谷。有人将这一段对人工智能领域探索的历史称为「喧嚣与渴望、挫折与失望交替出现的时代」。
从深度学习到迁移学习
近年,由於神经网络深度学习在算法上的突破,使得众多基础人工智能水平得到很大的提升。人工智能的各种相关领域藉着深度学习有了更高层次的发展。就目前来说,深度学习方法对图像视觉领域的问题解决有着相当不错的效果,可是这种方法并不能对所有问题都适用。
一些有延迟反馈的相关问题,比如机器人的运动路径规划问题。还有前段时间那只下围棋赢了世界冠军柯洁的「阿尔法狗」,就是用深度学习和强化学习两种方法相结合去开发的。还有一些小规模数据问题,深度学习的模型依赖大规模的数据去训练,可是现实生活中并不是每一类需要解决的问题我们都能获得相应的大量数据,这一类问题我们仅靠深度学习方法就没办法很好地解决,而处理这一类小规模数据问题的最好方法就是本文的介绍对象—迁移学习。
迁移学习可优化的领域
计算机视觉:
基於不同的CNN架构,深度学习在多种计算机视觉任务上的应用取得了相当大的成功。迁移学习在视觉这一领域可以帮助我们在风格迁移和人脸识别等目标任务中利用现有的当前最先进模型,虽然目标领域的任务可能不同,不过可以将现有优秀模型的可取之处迁移到目标任务当中。
自然语言处理:
对自然语言处理而言,其本身的进展就不如计算机视觉那样成熟,文本数据给深度学习提出了各种各样的挑战。使用迁移学习中预先训练的方法以及加入文档嵌入层,可以在数据量较小时也可以取得很优秀的效果。通过从源领域迁移知识,可将其应用到情感分析和文本分类等任务当中。
音频处理:
类似於自然语言处理和视觉,迁移学习也在提升优化基於深度学习的音频数据任务模型中取得了不错的效果。
何谓迁移学习
前百度首席科学家、史丹福大学教授吴恩达(Andrew Ng)在一次采访中曾说到过:「迁移学习将会是继监督学习之後的下一个机器学习商业成功的驱动力」。吴恩达教授之所以会认为迁移学习是未来最有活力的机器学习领域,就是因为迁移学习能够解决现有方法无法解决的问题。迁移学习(Transfer Learning),也可以叫做领域适配(Domain Adaptation),就是指将从源领域学习到的东西应用到目标领域上,当然源领域与目标领域之间有一些差异,比如两个领域的数据的分布不同等。简单地说就是迁移学习可以从现有的数据中迁移学习的东西,用在将来的任务当中。把从别的领域学习到的知识应用到新的环境中。由此可以明显的感觉到,这样的人工智能是更加符合人类对「人工智能」的期望。
当前阶段,迁移学习方法一般用来解决的问题有两类,分别是前文提到的小规模数据问题和个性化问题。当遇到小规模数据问题,我们没有办法使用足够的数据基於深度学习方法训练出一个可以很好解决问题的模型,迁移学习这时候的解决方法就是找一个有些许关联(当然也有差异)的另一个已有足够数据的问题,利用这个问题的数据,去建立一个模型,再结合两个问题的关联,就可以将这个模型迁移到我们所需要解决的问题上。
第二个是个性化问题,比如我们每个人都希望自己的一些电子设备(比如手机)能够记住自己的一些习惯,这样就不用每次都去设定它,通过迁移学习我们就可以将一个通用的用户使用手机的习惯模型迁移到个性化数据当中。
迁移学习的具体应用场景
医疗影像分析:
在医学影像分析任务中,医学图像训练数据的标注需要先验的医学知识,适合标注此类数据的人群稀少,从而导致训练数据严重稀缺,深度学习将不再适用。可以将迁移学习应用到医学图像的语义映射中,利用图像识别的结果帮助医生对患者进行诊断,从而减轻医生的工作负担,促进医疗实现转型。
艺术风格迁移:
艺术风格迁移是一个颇具历史性的话题,多少艺术家为了模仿名家的作品风煞费苦心,迁移学习却可以轻松做到这一点。比如我们可以将从梵高的画中学习到的「知识」应用到新的图像中,一只梵高风格的猫就被「画」出来了。
语音识别:
语音识别一直是人工智能领域的重要问题,因为人们如何评价「智能」这个属性,很大一方面就是从机器与人类的交互性上去度量。针对英语自动识别模型(ASR)就曾在迁移学习方法下,被成功应用到提升法语等其他语言识别的模型下,给目标任务带来大幅表现提升。
自动驾驶模型训练:
在自动驾驶的任务当中,需要大量的经验数据训练模型。可是直接在实际场景中进行采集数据非常费事费力,成本很高,而且有很大的危险性。所以现在许多公司直接使用仿真模拟器训练模型,之後再把学到的「知识」用於实际测试当中,并不断优化。
迁移学习的分类
根据我们从源领域到目的领域所迁移的具体内容,目前可以把迁移学习分为四大类,分别是基於实例的迁移学习(Instance-based Transfer Learning),基於特徵的迁移学习(Feature-based Transfer Learning),基於参数的迁移学习(Parameter-based Transfer Learning)和基於关系知识的迁移学习(Relational-Knowledge-based Transfer Learning)。
基於实例的迁移学习
该方法的基本思想是根据一个确定的相似度匹配原则从源领域中寻找和目的领域相似度较高的实例(Instance),将这些筛选出的实例迁移到目的领域中去帮助目的领域模型的训练,从而就可以帮助解决目的领域数据样本不足,标签不足等问题。一般的方法是对实例进行加权处理,在训练过程总对更加重要的实例加权,对没那麽重要的实例进行降权,从而让最终训练结果更好。
基於特徵的迁移学习
该方法指的是在特徵空间进行迁移,这种方式一般需要将源领域和目的领域的特徵投影到同一个特徵空间,然後从源领域学习一个好的特徵,将学到的通过特徵形式进行编码传到目的领域,从而提升目的领域的学习效果。
基於参数的迁移学习
该方法要求源领域和目标领域的任务之间共享相同的模型参数,或者服从相同的先验分布。从而将已经学到的参数相关知识迁移。
基於关系知识的迁移学习
该方法假设源领域和目的领域的数据之间的联系是相同的,通过在源领域和目的领域的关系模型之间建立一个映射模型从而达到迁移的目的。
挑战与展望
迁移学习作为人工智能领域的方向,说明人工智能领域将会往更加「智能化」的方向发展,将会为人类解决更多的问题。不过就目前来说,迁移学习仍然是一个新兴领域,目前主要是学术界在进行算法的研究,在业界的实际应用落地方面还需进一步的发展。
就迁移学习技术特点,以及目前的发展现状,我们可以推测,迁移学习未来可能的发展方向有以下几种:(1)跨领域的迁移学习。(2)迁移学习与多种深度学习方法相结合。(3)利用迁移学习处理数据之间的偏差。(4)将迁移学习应用到非平稳环境的大数据分析平台。
总之,迁移学习代表了人工智能的「明天」,一定会成为人工智能领域发展的又一个重要推动力。
【华发网根据大公报采编】
|