分享到微博 分享到人人 分享到LinkedIn 分享到Email
透过视频看世界

作者:曾文军

看过电影《速度与激情7》(Fast & Furious 7) 的人都会对里面展示的天眼系统留下深刻的印象。通过一个全球联网的智能监控摄像头系统,天眼可以随时随地了解任何一个人或物体的行踪。这既是一个对目前如日中天的人工智能系统的理想展现,也极大地突出了智能视频系统在人工智能应用中的特殊地位。

是的, 人工智能离不开感知,而视觉是我们最主要的感知。据研究估计,人的感知、学习、认知和活动有80-85%是通过视觉介导的(http://www.brainline.org/landing_pages/categories/vision.html )。如果不能获取并处理视觉信息, 就没法研究真实世界的人工智能,可见计算机视觉对人工智能发展的重要性。

现在,视频数据已占Internet 在线流量的70%多,可谓大数据时代最大的数据。随着各种摄像头的普及,视频数据正记载着物理世界发生的一切,让机器帮助分析理解视频大数据就成了我们观察了解物理世界的一条捷径。但视频数据不但量大,还包含千变万化的内容,分析理解并不是件易事。下面我们就来探讨一下视频数据分析理解的应用场景和技术要求、技术发展现状和瓶颈,以及对未来技术发展的展望。

广阔的应用空间

视频数据已渗透到人类日常生活的方方面面,视频分析的应用也因此是多方面的,包括居家、企业、零售、公共安全、交通、医疗、制造等。下面讨论几个目前主要的市场,感受一下它的重要性。

1. 家居安防。预计到 2020年,全球家居安防解决方案市场将以8.7%的复合年增长率增长到475 亿美元[1]。 这迅速增长背后的主要原因可能是令人震惊的全球犯罪率的不断增长和社会各界对安全措施的关注和担忧。这个市场和视觉系统相关的技术要求包括运动检测、人的检测与识别、动作行为识别、视频摘要、物体标注等。一般要求实时处理。

视频:牛津计划video API_运动侦测

2. 零售分析。预计到 2020年,零售分析市场规模将以18.9%的复合年增长率增长到 51 亿美元[2]。零售分析解决方案帮助零售行业在全球各地通过创建个性化的购物体验,提高顾客的忠诚度。这方面和视觉系统相关的技术要求包括人的检测、计数与识别、人的属性(年龄,性别,表情,注意力)和行为检测、物体的检测与跟踪等。有些功能要求实时处理,有些功能可以离线处理。

3. 公共安全与监控。公共安全与监控。 公共安全与监控市场预计将从2015 年的19.3 亿美元增长到2020 年的30.6 亿美元,复合年增长率为9.7%[3]。对火车站、公共广场和公园等公共场所日益关注的安全及监控是全球范围内推动智能摄像头需求量增长的重要因素之一。相关的技术要求包括人的检测、跟踪与识别、人的属性和动作行为检测、车的检测与跟踪、物体标注、运动检测等。一般要求实时处理。

视频:牛津计划video API_人脸追踪

4. 自动驾驶汽车。半自动车市场预计到 2018 年将达到214 亿美元。包括摄像头在内的多种传感器是必备部件。相关的视觉技术要求包括汽车检测/跟踪、路标行人检测、自由空间探测、 3维绘图等[4]。

5. 视频数据搜索。海量的视频数据需要有效的索引和管理. 这要求把没有结构的原始视频数据转成有结构的数据。相关的技术要求包括:人的检测、跟踪与识别,人的属性检测,物体和事件的检测与标注,字幕化, 光学字符识别等。

视频技术道阻且长

由此可见,视频分析与我们的日常生活息息相关,有着巨大的商业市场。这个巨大的商业市场也不断推动视频分析技术的发展。但是,尽管市场潜能很大,视频分析技术的发展在前期还是比较缓慢的。其原因是多方面的。一个主要原因是物理世界万象丛生、千变万化,视频数据的内容自然就丰富多彩,要将其模型化有很大难度。从一维到四维,每增加一维,复杂度都是指数增长。所以早期工作主要关注低层次图像特征和运动信息的提取以及在此基础上的应用,高层次语义上的理解进展较慢。语义上的理解需要借助规模较大的模型,而建模需要大量的有标注的数据,以及强大的计算资源,这些资源在早期是缺乏的。这是第二个主要原因。

这种状况终于在几年前开始得以改善:2010年左右, ImageNet创建,提供了一个真正大规模有标注的图像数据集,在千万图像量级,有上千图像类别。这使图像分析技术开始有明显提高。2012年,深度神经网络被成功用于ImageNet图像分类年度竞赛,将其性能大幅度提升,展示了深度神经网络对视觉研究的极大潜能,也激起了视觉研究的新高潮,让人们看到了计算机视觉实用化的希望。短短几年后的今天,深度神经网络技术发展迅速,在ImageNet图像分类上的性能已超过人类,人们研究的重点也从图像分类转移到图像物体语义分割等更细更复杂的任务。

相对于图像分析,视频分析更有挑战性。一方面,图像分析技术是视频分析的基础。图像分析做不好,视频分析免谈。另一方面,视频分析有其独特的挑战。物理世界是三维的,且在不断变化,所以视频分析的任务更多样更复杂。其它挑战包括数据量大、存储计算资源要求高、实时性等。还有其它一些实际问题,比如说人工标注难、某些任务正样本少、隐私担忧导致数据集缺乏等,成为进一步发展的瓶颈。

前面谈到视频分析的一些应用场景,尽管不同应用场景有不同技术要求,但有些基本技术是共享的,比如物体的检测与跟踪。人是我们日常生活和工作的核心,因此也是大多数图像/视频的最主要实体。对人的分析是视频理解中的关键一步。因此很多研究团队包括微软亚洲研究院最近几年都专注于以人为中心的视频分析,例如检测与识别人、人的属性、人的行为,甚至是人的意向。由于近年来大数据、计算能力和深度学习技术的进步,对视觉数据中人的理解技术已取得了很大的进步。 机器检测和识别人脸的性能已经达到了和人相仿的程度,并在身份验证、 安全、 智能零售、智能媒体管理等领域得到广泛应用。人体检测的性能也有了显著提高,在一些基准数据集上达到超过80%的准确度。人的各种属性,如性别、年龄、情感、手势与身体姿势,以及衣服颜色类别等,也可以很好地提取,以帮助更好地了解一个人的状态。2015年网上爆红的微软 how-old.net 应用程序就是依赖于性能优秀的人脸检测、年龄和性别估计等技术。人体姿态估计技术的性能也达到了数年前都不可想象的水平,也极大地方便了人的动作识别。我的同事兰翠玲将在另一篇文章专门介绍微软亚洲研究院在人体动作识别方面基于深度学习的近期研究工作。再结合周围的物体和场景的识别,就有可能推断出人的注意焦点和意图。

再比如,在和交通有关的场景里,车辆就变成了最主要的实体。围绕着车辆的一系列相关技术,比如汽车检测/跟踪、车牌检测/识别、路标行人检测等,就变得尤其重要。微软亚洲研究院在这方面也有一些初步研究进展。以后有机会再细谈。

同样的技术在不同应用场景下性能要求也不一样。拿人脸检测来说,对一般正规拍照或基于人脸的登录验证,技术已经很成熟。但对于无控制的视频监控等场景,由于摄像头角度、人脸大小、角度、遮挡、图像质量等变数很大,要做到技术成熟有很大挑战。比如对于保护隐私的视频人脸模糊的应用场景,对检测率要求极高,脸在任何一帧都不能曝光。这就要求人脸检测及跟踪技术要对特定场景数据进行很好的优化。近期我的同事谢文轩将会对视频人脸模糊技术做一个更详细的介绍。

总之,随着计算能力,大数据持续快速增长,加上主动学习、迁移学习、强化学习等更强大机器学习技术继续发展,让机器可以像人一样看到并理解世界的前景是乐观的。

市场竞争刺激技术发展

再好的研究成果,最终只有在实际应用中得到验证才能体现它的真正价值。微软亚洲研究院研发的视频分析技术正在通过微软认知服务这个平台,以视频 API 的形式提供给广大人工智能领域的开发者,帮助他们方便而高效地开发和视频相关的人工智能应用系统。这些技术也成了微软Azure 云平台的媒体分析服务的重要组成部分,提供企业级的智能服务。类似地,其它高科技公司如Google、Amazon、Facebook等也相继推出计算机视觉API, 使市场争夺白热化。这种激烈竞争反过来将会进一步刺激加快计算机视觉和视频分析技术的发展,最终使人工智能可以透过视频看世界,尽快渗透到日常生活和工作中去。

引用:

[1] “Home Security Solutions Market - Global Forecast to 2020"
http://www.marketsandmarkets.com/Market-Reports/home-security-solutions-market-701.html

[2] “Retail Analytics Market - Global Forecast and Analysis to 2020”

http://www.marketsandmarkets.com/Market-Reports/retail-analytics-market-123460609.html

[3]"Smart Camera for Security Market & Surveillance - Global Forecast to 2020"

http://www.marketsandmarkets.com/Market-Reports/smart-camera-market-195041607.html

[4] “Semi Autonomous Market for Passenger Car – Global Trends & Forecast to 2018”

http://www.marketsandmarkets.com/Market-Reports/near-autonomous-passenger-car-market-1220.html

作者简介

曾文军,微软亚洲研究院首席研究员,网络媒体组和媒体计算组负责人,IEEE Fellow,密苏里大学,西安交大,天津大学等多所学校博士导师。1990年毕业于清华大学,1993年和1997年分别获圣母大学和普林斯顿大学硕士和博士学位。先后在松下技术, 贝尔实验室, 夏普实验室,PacketVideo等公司工作。2003-2016任密苏里大学终身教授。他对国际标准(ISO MPEG、 JPEG2000和OMA)发展作出重大贡献。他目前负责微软亚洲研究院视频分析和理解的研发,为微软认知服务和Azure媒体分析服务提供技术。他是多个IEEE期刊和杂志的副主编。担任多个IEEE会议(例如,ICME’2018, ICIP’2017, ChinaSIP’2015,WIFS’2013,ICME'2009)大会共同主席或技术程序委员会主席。