计算机视觉是个技术活

郑瑟 · 发表于 2016-12-14 21:10:57

　　迄今为止，影像是容量最大的信息载体。几千年前，人类发明了文字，记录了语音;二百年前，人类制造了相机，保存了图片;直到最近几十年，人类才发明了动态图片，也就是影像、视频。

　　计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，用电脑处理成为更适合人眼观察或传送给仪器检测的图像。

　　作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取‘信息’的人工智能系统。这里所指的信息指Shannon定义的，可以用来帮助做一个“决定”的信息。因为感知可以看作是从感官信号中提取信息，所以计算机视觉也可以看作是研究如何使人工系统从图像或多维数据中“感知”的科学。

　　作为一个工程学科，计算机视觉寻求基于相关理论与模型来建立计算机视觉系统。这类系统的组成部分包括：

　　程序控制(例如工业机器人和无人驾驶汽车)

　　事件监测(例如图像监测)

　　信息组织(例如图像数据库和图像序列的索引建立)

　　物体与环境建模(例如工业检查，医学图像分析和拓扑建模)

　　交感互动(例如人机互动的输入设备)

　　计算机视觉同样可以被看作是生物视觉的一个补充。在生物视觉领域中，人类和各种动物的视觉都得到了研究，从而建立了这些视觉系统感知信息过程中所使用的物理模型。另一方面，在计算机视觉中，靠软件和硬件实现的人工智能系统得到了研究与描述。生物视觉与计算机视觉进行的学科间交流为彼此都带来了巨大价值。

　　计算机视觉包含如下一些分支：画面重建，事件监测，目标跟踪，目标识别，机器学习，索引建立，图像恢复等。

　　计算机视觉既是工程领域，也是科学领域中的一个富有挑战性重要研究领域。计算机视觉是一门综合性的学科，它已经吸引了来自各个学科的研究者参加到对它的研究之中。其中包括计算机科学和工程、信号处理、物理学、应用数学和统计学，神经生理学和认知科学等。

　　视觉是各个应用领域，如制造业、检验、文档分析、医疗诊断，和军事等领域中各种智能/自主系统中不可分割的一部分。由于它的重要性，一些先进国家，例如美国把对计算机视觉的研究列为对经济和科学有广泛影响的科学和工程中的重大基本问题，即所谓的重大挑战(grand challenge)。计算机视觉的挑战是要为计算机和机器人开发具有与人类水平相当的视觉能力。机器视觉需要图象信号，纹理和颜色建模，几何处理和推理，以及物体建模。一个有能力的视觉系统应该把所有这些处理都紧密地集成在一起。作为一门学科，计算机视觉开始于60年代初，但在计算机视觉的基本研究中的许多重要进展是在80年代取得的。现在计算机视觉已成为一门不同于人工智能、图象处理、模式识别等相关领域的成熟学科。计算机视觉与人类视觉密切相关，对人类视觉有一个正确的认识将对计算机视觉的研究非常有益。

　　但是人类要想完全提取、“读懂” 影像中的信息，不是一件容易事。看电影时，你盯着男女主角谈情说爱，注意到背后的房子是什么颜色了吗?我们总是一心二用，看电视时玩手机又会错过多少信息呢?爆炸的信息以影像的形式被储存时，人类还有能力整理、检索这些信息么?

　　一直以来，计算科学家一直在为建立世界上最精确的计算机视觉系统孜孜不倦地努力着，但取得进展的过程却一直如马拉松竞赛般漫长而艰辛。救世主是时候出场了。

　　计算机视觉要做的很简单，让设备拥有“眼睛”和“大脑”，像人一样看懂世界。眼睛好办，有摄像头，可是机器没有大脑，这就麻烦了。上世纪60年代，研究人员就开始尝试给机器装“大脑”。有了计算机越来越强大的运算能力做基础，也可以支撑各种先进的深度学习算法了。

　　计算机视觉一直是人工智能领域里最活跃的部分，指纹识别、掌纹识别、人脸识别都属于其应用。

　　但它一直有两个流派。十几年前主流的观点是，凭借着原有的二维摄像头和强大的算法，就能完整还原真实世界。格灵深瞳联合创始人、CTO赵勇，和他当时在布朗大学的导师就不这么看，“现实世界是三维的，使用二维摄像头怎么可能展示真实的世界呢?”因此，二维摄像头基础上完成的视觉分析，也会大打折扣。

　　赵勇的离经叛道，让他在十年后成为格灵深瞳创始人。回国创业之前，赵勇在谷歌研究院担任过高级研究员(Google research Senior Scientist)。Google X是全球最酷的实验室，Google Glass、无人驾驶汽车、长生不老计划都在这里，赵勇曾是最早提出Google Glass计划的三人之一。

　　格灵深瞳的CEO何搏飞和赵勇完全是两个世界的人。

　　2013年4月，blackhawk前总经理何搏飞离职，回中国寻找创业伙伴。同时，赵勇也在谷歌内部寻找合伙人，有两名工程师一度非常热情加入其中，但最终反悔。

　　两个失落的人在投资人徐小平的撮合下，在北京北四环破旧的一栋居民楼里见面了。科学家与商人从下午聊到凌晨2点。科学家给出了80个计算机视觉可以应用的领域，商人想在这里试试做第一个将计算机视觉商业化的公司。

　　最初他们想到了将线下的零售“电商化”，让传统零售像阿里、京东那样拥有用户行为数据。但这需要大量的训练数据完善算法，赵勇和何搏飞要寻找人最多、影像最多的领域。

　　天安门广场人最多，摄像头也最多，每天产生的监控视频数据，刻成光盘摞起来，比埃菲尔铁塔还高。这些数据被用于安防，全球 50% 的硬盘都用来存储监控视频了。而且安防领域好赚钱，何搏飞给出的数据是，去年中国智能手机的销售额是 3200 亿，而安防设备的销售额则达到了 4000 亿。

　　视频监控一直以来的两大难题是看不见、找不着。装有几百个摄像头的区域，最多只有几十个监控屏幕轮番播放，监控人员往往看不到异常画面;过后从海量视频中寻找到需要的画面又很难。

　　计算机视觉正好可以解决。格灵深瞳通过三维摄像头和视觉感知技术，可以跟踪人物运动轨迹、检测动作姿态，发现异常主动预警、报告，保障安保人员“看得到”。同时，可以把个人的行动轨迹作为时间线，进行监测、跟踪、搜索，真正做到“找得到”。

　　大市场加海量的数据库，似乎短期内格灵深瞳已经可以高枕无忧了。不过，天有不测风云。一项关键传感器是由PrimeSense生产的，2013年11月 PrimeSense被苹果收购，其对外授权的技术都会在 2015 年终止。

　　当晚，听到消息的赵、何二人都蒙了。“我们第一时间想到的是囤货，还得安抚员工”，何搏飞如是回忆，“那个时候，我开始觉得我和赵勇是在一起的”。后来，他们找到了新的替代传感器。

　　格灵深瞳找到了一个千亿级市场。今年 10 月，这套安防产品已经布局了，四大国有银行中的三大首批试点。

　　按何的说法，这么优质的计算机视觉技术局限于安防大材小用，所以他们要以安防产品为基础做开放平台。

　　其实，安防市场也不好做。传统的安防公司已经占据了大部分市场份额，格灵深瞳作为创业公司进入很难。安防市场又相对封闭，拿到了天安门广场的全部订单，其它广场还是得一个一个谈。另外，安防的产业链条长，从传感器、存储器的采购到元件的集成，闯入者格灵深瞳在供应链上没有太多积累。

　　格灵深瞳真正的强项是识别算法。最佳做法是把安防识别的方案整合出来，做成模块化方案，开放给厂商，做一个“封闭的系统，开放的产品”，既不用与安防厂商竞争，又能获得海量的数据。试想下，未来如果全国大部分的监控屏幕的背后，都有格灵深瞳的安防识别系统，即使人们都不知道格灵深瞳这个品牌，又有什么关系呢?

　　这是第一步。下一步格灵深瞳要做“封闭的系统，开放的平台 ”，进一步将计算机识别技术模块化，开放API接口。赵勇当时想到了80个可能应用的领域，但计算机视觉的应用很可能有八千甚至八万种，以众包的方式开放技术，就能孕育出来更多有趣、有意义的项目与产品。格灵深瞳要做的，就只有不断升级自己的技术，最终做成一个“开放的系统，开放的平台 ”。

　　不过，要做开放平台，也没有那么容易。首先自己技术要够好，能够抽象出模块化的东西，才能开放API接口。从成立至今，外界不少人质疑过格灵深瞳的技术。作为CEO，何搏飞也清楚这一点，坦言现在的技术还需要持续优化。

　　格灵深瞳的技术有四个方向：肢体识别(包括手部动作识别)、人脸识别、个体轨迹识别、人与人之间的关系与互动。现阶段个体轨迹识别已经做成了完整的产品，并被运用在了银行安防领域。手部、肢体识别，预计明年春节后也能成熟。在公共场所，人脸识别并不适用，1%的误识率也许意味着上万人被误认为坏人，现阶段还没有很好的解决方案，仍然在研究当中。人与人之间的关系与互动，则是格灵深瞳未来最想解决的问题，人在网上形成的数据都已经很有价值了，那人在世界上形成的关系数据的价值就难以想象了。

　　这四个方向都很热门。比如人脸识别，Face++就做得小有名气。BAT也在尝试，但没有对外披露细节。

　　开放平台，还得让开发者足够放心。在国内，BAT做，开发者自然信赖。但由一家才创办两年的公司来做，就难以服众。这也是格灵深瞳先从安防入手，做封闭系统的原因吧。毕竟，苹果每次发布新产品、新功能，也会提前找到靠谱的开发者，让消费者能第一时间体验这些新特性。

　　这些都还是围绕着人展开的。技术成熟了，格灵深瞳还可以做车。车是人行为的延展，举个简单的例子，司机的心情就会影响司机的开车行为。关于汽车识别，格灵深瞳内部已经酝酿了好长时间，在刚刚结束的董事会上，才定下来去做这个方向，具体如何操作，还在探索。

　　汽车是第一个真正意义上的机器人，汽车相关的市场也是一个大市场，当人的出行方式改变，人的行为就会发生很大改变。从人延展到车，这其中的想象意义就很难简单的衡量、评价了。这方面，赵勇的师兄，也是Mobileye创始人，已经迈出了成功的一步。

　　而在中国，人工的成本越来越高，机器的成本越来越低。也许有一天，我们就会像日本一样，汽车廉价，但打车就要付较高的成本了。当这两条成本线相交时，即使不考虑商业模式，也能看到经济价值了。

　　第一次听到有投资人想要给他们数千亿美元B轮融资，我和我的小伙伴们都惊呆了。资本的寒冬即将到来，这样的声音不绝于耳。不少做技术的公司，鲜有投资人问津。成立不到两年的格灵深瞳，就有可能跨进10亿美元俱乐部了。这也难怪，计算机视觉是个技术活。利用资本的力量，聚拢最优秀的计算机视觉大牛，人就是最大的竞争壁垒，后入局者很难有超越的可能了。

　　不过，何搏飞告诉36氪，他们现在并不急着拿钱。创业就像是一场马拉松，节奏很关键。有人担心口渴，早期拼命喝水，最终可能也不会有好的成绩。资源也许同样重要。格灵深瞳已经在做物理世界人与人的关系了，未来如果能打通虚拟世界的关系，这其中的想象空间就很大了。而最终，格灵深瞳想做一家伟大的人工智能的公司。

　　要成为一家伟大的人工智能公司，就要在广度上影响到尽可能多的人，在深度上对单独的个体产生足够的影响与价值。Google、苹果、百度、阿里、腾讯都是这样的公司。只是现在的互联网已经很难再出现这样的公司了。互联网这一波的技术革命已经在要走完历程，新的技术革命即将开始了。

　　关于技术革命，Chris Dixon有这样一个观点，技术革命一般要经历两个主要阶段：安装阶段和部署阶段。每一次革命均发端于金融泡沫，从而(不合理地)推动了新技术的快速“安装”;然后泡沫破裂，紧接着是恢复期;之后，随着新技术更广泛地“部署”到其他行业及社会，进入到很长一段时间的生产力增长期。最终这轮革命走完历程，新的技术革命又开始了。

　　安装阶段是打基础，部署阶段则是在基数之上做各类实际应用。安装阶段向部署阶段转化的过程中，会涌现出大量的创业活动。比方说，在汽车革命的安装阶段，其中的活动是造车。而在部署阶段，活动则转移到了应用层：高速公路体系，运输、城镇化、大卖场等。我们最熟悉的信息技术领域，安装阶段大家做的是信息网络的核心技术设施，比如芯片、网关、TCP/IP协议，成就了思科、IBM、Intel、微软;部署阶段则是搜索(Google)、社交(Facebook)、电商(Amazon)。

　　如果下一次信息技术的革命是人工智能的话，那么现在格灵深瞳做的就是人工智能技术的核心技术设施。上一波的核心技术设施建设过程中，涌现出了一批像思科一样的大公司。现今，Google、Facebook、Amazon我们如数家珍，思科更多的是以一个大公司的形象存在我们的记忆力，但这并不能代表它不伟大，它也依然是一家数千亿美元市值的公司。我们今天互联网的一切，很大程度上就是得益于思科这样的公司。

　　根据 36氪(北京)等采编【版权所有，文章观点不代表华发网官方立场】

		自动登录	找回密码
密码			立即注册

计算机视觉是个技术活

相关帖子