分享到微博 分享到人人 分享到LinkedIn 分享到Email
动静之间,从视频到语言

不久前,在中国最重要的科幻小说大奖,第26届“银河奖”颁奖典礼上,出现了与以往不同的颁奖嘉宾——微软人工智能机器人小冰不仅成为国内首个机器人颁奖嘉宾,而且还引发了现场众多科幻作家与科幻迷对人工智能的思考。

毫无疑问,小冰的“智能”已经得到越来越多人的认可,小冰每周解锁的新技能也吸引了无数粉丝第一时间体验。到目前为止,小冰已经能通过文字、语音和图片三种形式进行沟通,其中针对图片给出评价的技能,如“合影揭秘”,得到众多好评。

很快,微软小冰又将解锁一项新技能——小冰这位萌妹子不久后还能看懂视频,并给出评价哦!例如,当你发给小冰一段视频时,她会给你一些意想不到的回复。看到下面这个小视频,猜猜她会说什么?

这项即将应用在小冰上的技术来源于视频识别研究。2015年5月,来自微软亚洲研究院多媒体搜索与挖掘组的研究成果video to language by joint embedding and translation,让计算机能够识别视频并用语言描述出来,这一算法的表现取得了迄今为止全世界最好的实验成绩——这也是目前学术圈公认的最好算法。

视频识别目前取得的最好成绩

让计算机看懂视频:从理解到描述

对于人类来说,看懂视频似乎是再简单不过的事情了。从出生拥有视觉开始,人眼所看到的世界就是连贯动态的影像。视野中每一个动态的形象都被我们轻易的识别和捕捉。但这对于计算机来说就没那么容易了。对于计算机来说,画面内容的识别,动作的捕捉,都要经过复杂的计算才能得出。当计算机从视频中识别出一些关键词后,由于语义和句子结构的复杂性,还要涉及词汇的词性、时态、单复数等表达,要让计算机将单个的词汇组成通顺准确的句子也是难上加难。

那么让计算机看懂视频都要经过哪几步呢?

首先,识别视频里的内容。目前的图像识别研究大多基于CNN(Convolution Neural Networks,卷积神经网络),首先,计算机识别出物体的种类,例如人、动物或其他物品;第二阶段,计算机获取物品在图像中的精确位置——这两个阶段分别回答了“是什么”和“在哪里”的问题。但在视频识别过程中,则需利用RNN(Recurrent Neural Networks,递归神经网络)将静态的图片加上时间的维度使其连贯,从而实现对视频内容中的静态物体和动作的识别。

递归神经网络

当计算机回答出“是什么”、“在哪里”和 “做什么”的内容之后,就需要把这些分裂的词汇组成一个合乎人类表达规范的句子。而在将计算机识别出来的内容组成句子的环节中,相关性(relevance)和连续性(coherence)是两个关键。相关性表示的是句子结构中的元素与视频内容的相关性,例如保证视频中所出现的客观物体的准确性。而连续性则是保证计算机最后“说”出来的句子要合乎语法,保证句子的连贯性。

相关性和连续性

计算机从理解视频,到表达出完整的句子,一直都是提高视频识别准确率的难点。但微软亚洲研究院研究员所提出的算法独具创新的将相关性和连续性进行联合学习以提高视频识别效果,将二维视觉上的卷积神经网络和三维的动态卷积神经网络结合,则使视频识别的准确性大大提高。

事实上,小冰即将开启的回复视频的功能在视频识别的基础上又更近了一步。她不仅要对用户提供的视频进行分析、理解,还要针对视频内容给出评论和反馈。这一功能将更加丰富小冰与用户对话的形式,并意味着用户在与小冰交流的时候将可以在文字、语音、图片、视频这几种形式之间无缝切换。

一步一步拥抱未来

像每一个新生技术一样,视频识别还有很大的发展空间。微软亚洲研究院主管研究员梅涛博士表示:“我们为我们取得的成就而高兴,但是我们更多的是要想清楚如何走好下一步。未来,在视频识别领域有三个方向需要我们继续努力。“

第一,建立一个更大的视频数据集,从而实现视频识别方向的可扩展性和泛化能力。视频识别相比于图像识别和语音识别等技术起步较晚,实验数据相对有限。因此建立大规模的视频数据集将成为视频识别研究进一步发展的基础,将为研究机构和研究人员提供更多有效的研究素材。这一数据集目前正在筹备中,预计明年初能够对学术界开发使用。

第二,扩展可识别视频的时长和内容的多样性,以及完善计算机从视频到句子的表达能力。目前,视频识别在视频的时长和内容上仍有一定限制;计算机表达的描述语句和人类自然语言仍有一定差距。未来的研究目标将着重于让计算机能够识别多种形式、时长更长的视频内容,并能产生复合的句子描述,使计算机的语言表达更自然流畅。

第三,视频中的声音识别。区别于图片,视频除了动态效果之外,还有一个很重要的维度,就是声音的加入。目前的视频识别还仅限于内容图像上的识别,尚未把声音加入识别范围内。接下来,视频识别与语音识别的共同合作将会进一步提高计算机视频的分析能力和表达能力。

离智能更近一步

视觉识别技术的不断发展将为人们的日常生活带来很多便利。想一想,有什么比一个24小时全天候的人工智能“眼”更方便的呢?当然,计算机能看懂这个动态的世界,无疑为有视觉障碍的人群带来了福音。例如,以前不敢想象的盲人看电影也将变为可能。计算机可以识别电影内容,然后借用语音技术,向盲人描述。除此之外,在搜索领域,视频搜索也能大展身手。现在,对现有视频进行分类标记的速度十分缓慢,且仍有一大批视频无法被检索到,视频的细节也很容易被忽略。倘若用计算机对海量视频进行分析,针对每一个视频给出精确的描述,那么视频搜索的准确性也将大大提高。

每一次技术的突破都推动着人机交互方式的革新。如果计算机能将其感官能力相互连接,那么它可以很快地针对人的动作表情做出适时的反馈。当人们下班回家,靠在沙发上休息的时候,智能系统也许会自动放出轻柔的音乐、调整室内的光线和温度,一切尽在不言中。

长久以来,为了实现人工智能的终极目标,科研人员将其逐步解构,分解成多个研究和应用方向,期待总有一天这些“能力”能够融于一体。今天,随着人工智能在计算机视觉、语音识别、自然语言处理等领域的飞速发展,计算机对于一维二维数据的识别理解能力正在快速向人类接近,在某些方面甚至超越人类。也许视频识别只是一个新的开始,当计算机的“眼睛”逐渐睁开,学会看懂这个动态的世界时,我们离人工智能的终极目标又更近了一步。

了解相关论文: http://arxiv.org/abs/1505.01861