分享到微博 分享到人人 分享到LinkedIn 分享到Email
用线条解码甲骨文的秘密
微软亚洲研究院
2015年12月4日

汉字,作为迄今为止连续使用时间最长的主要文字,也是上古时期各大文字体系中唯一传承至今的文字,其悠久的历史一直为汉字文化圈的人们所自豪。相较早已消亡的古埃及、古巴比伦、古印度文字,汉字一路从甲骨文发展演变而来,历久弥新。

不同于英文、法文等表音文字,方块状的汉字在一笔一划之间都蕴含着无穷的奥妙。以象形、指事、会意、形声、转注、假借的六书为构字系统,汉字也在不断发展变化。如今,汉字的起源——甲骨文仅能被一些专业汉语言学者们所辨认。但普通人想要解码甲骨文间的秘密,却显得难上加难,那么能不能用先进的计算机技术能帮助人们解决这个难题呢?

而不久前,微软亚洲研究院主管研究员王长虎博士在IEEE Transactions on Image Processing (TIP) 杂志发表的一篇论文Building Hierarchical Representations for Oracle Character and Sketch Recognition中就如何通过针对甲骨文线条特征来识别甲骨文进行了阐述。目前论文中提出的算法在甲骨文识别中已经非常精准,远超普通用户对甲骨文的识别能力,这一结果让人十分振奋!

甲骨文是人类手绘出来的,经过实践验证的很好的草图识别模型。 而该论文中的另一个重要部分便是一般的草图识别。王长虎博士针对草图识别进行了一系列的研究和总结,找出了草图识别中最为关键的一些特征,并结合深度学习模型,使算法对草图的识别准确率超过了人类,为计算机与人类的博弈中取得了又一个战果。

复活线条非一日之功

视觉是人类的基本感官之一,为人类提供了最大的信息来源。一直以来,计算机科学家不断努力研究可与人类视觉媲美的计算机视觉系统。让人欣喜的是,近年来计算机科学家们在这一领域频频制造出里程碑式的突破,在各类与视觉相关的挑战与测试中,实验结果逐步接近,甚至超过人类。那么计算机视觉能否更近一步,看懂人类富有创意、极具个性的手绘草图呢?

手绘草图指的是人类手绘出来的、用简单的线条形状所构成的素描。这类图案通常比较简略抽象,而且针对同一事物,不同的人绘制出来的草图也千差万别。如果计算机能够看懂人类的手绘草图,那就意味着我们离实现视觉智能更进一步,计算机也离人工智能更进一步。但让计算机在看懂草图之前,还得从草图检索说起……

读懂你心的MindFinder

视频:MindFinder:从你的画读懂你的心

图像检索大家都不陌生,目前通用的图像搜索方法主要是基于关键字的图像搜索和以图找图的图像搜索。但是随着电子触摸屏设备——如智能手机、平板电脑等——的不断普及, 图像检索是否还有更多的可能性呢?2010年,微软亚洲研究院开发了一个MindFinder系统,这是一个通过画线条,及参考其他因素来帮你检索图像的系统。其操作方法十分简单,仅用简单的几笔线条,就能找到无数外观类似的画面。它可以与我们常用的关键字搜索图像的方法相结合,起到很好的互补作用。​

MindFinder系统的研发,无论在学术界还是工业界都史无前例。重要的是,MindFinder在2010年便提出了一整套的系统解决方案,包括用什么样的特征去表示一张图,去表示用户画出的线条。而面对在图像检索最困难的两个问题上——搜索图像库的规模大小问题和检索速度问题上,MindFinder能保证高效的运算速度,并实时的返回准确的索引结果。这套系统花了两年时间把图像检索数量从百万级提升到十亿级,即2013年则实现了15亿庞大图像数据的实时搜索,此时已经在理论上已经可以支撑在必应图像搜索上进行草图的图像检索。

MindFinder搜索引擎返回的前10个结果

所画即所得的“神笔马良”

视频:Magic Brush:神笔马良,所画即所得

在MindFinder系统做出之后,研究员们并没有满足于简单的手绘线条识别。因为除了将线条作为搜索特征之外,色彩信息同样也是重要的图像特征。于是,在MindFinder系统的基础之上,神笔马良(Magic Brush)系统诞生了。神笔马良的故事人人皆知,事实上这套系统就像是马良的笔一样,实现所画即所得,从海量的图像数据中找到最贴近自己需求的图像。

微软亚洲研究院开发的Magic Brush系统可以帮助用户更精确地检索到想要的图像

神笔马良系统能够实时地在600万图像数据中进行检索,并实现基于色彩变换的多种交互方式。譬如,用户想找蓝天背景下的埃菲尔铁塔话,就可以在铁塔线条旁边画一些蓝色,如果需要的话还可以在铁塔下方加上绿色以代表草坪。

Magic Brush“神笔马良”可以将线条和色彩信息作为图像特征进行搜索

儿童绘画的指路明灯

视频:Sketch2Cartoon:突破障碍,启发绘画灵感

基于这些草图搜索系统,研究员们又开发了许多新的应用。Sketch2Cartoon就是其中的一例,该应用能够帮助用户特别是儿童,仅仅基于线条来创作卡通图像,用户使用此应用时只需改变已处理好的矢量图像的大小和颜色即可。不同卡通元素图像的组合叠加,就能生成完整的图画。这样一套系统,不仅能够让小朋友很快地突破绘画障碍,还能启发小朋友们的绘画灵感。

从区分草图到看懂草图

当系统已经能够通过草图线条去匹配搜索相似图像,那么系统识别出图中的内容似乎也就水到渠成了。用户画出的花鸟虫鱼,计算机是如何准确识别出来的呢?

2012年,微软亚洲研究院做出了一套让计算机能够实时看懂手绘图像(Query-Adaptive Shape TopicMining for Hand-Drawn Sketch Recognition)并识别出常见物体的系统。与普通图像识别不同的是手绘图像千差万别,识别难度也大大增加。

学术界在图像识别上最常用的数据库拥有2万张图像,其中包括250类的子数据库,子数据库通过众包的方式每类收集80张手绘图像。而该草图识别系统为了实现任意画出线条就能产生实时对应的识别结果,在互联网上抓取了几百万张卡通图像。卡通图像很显然都是经过人类手绘而来,可以设想为非常理想的草图形式。这几百万张卡通图像包括了基本的常见事物,从而也保证了该系统的准确性和覆盖范围。

当然在图像识别方面我们并没有止步于此。近两年,微软亚洲研究院的研究员们在数据库上做了很多工作,例如通过大量的实验——包括基于形状的,色彩的和线条的——来寻找哪种因素最能影响草图识别的效果。最终研究员们把各层次的特征结合起来,不断提高图像识别的准确性。

而随着深度学习的快速发展,研究人员也愈发认识到深度学习对于图像识别方面的突破性作用。在Building Hierarchical Representations for Oracle Character and Sketch Recognition这篇论文中,通过将之前的研究经验与基于大数据的深度学习和复杂的神经网络结合,才实现了在草图识别和甲骨文识别上超过人类准确度的新突破,这也是迄今为止全世界最好的实验表现。

计算机视觉与文化传承的邂逅

当提及为什么会在论文中选择甲骨文作为图像识别的研究对象时,王长虎博士表示,甲骨文是唯一还活着的象形文字,可以理解使用。从甲骨文到金文,到隶书,到现在的简化字,汉字的演变是一个渐进的过程。诞生之初,甲骨文千差万别,就像让一群人画直升飞机,得到的草图也是形态各异。但是历经时间的发展,差别较大的甲骨文逐步被淘汰,最后留下的便是被时间验证过的线条,也是理想的草图识别研究对象。

目前,国内甲骨文研究大部分都是凭借个人经验和知识积累去比对分析,对研究人员的要求极高。为了做好甲骨文的识别,研究员们花了大量的时间建立起一个拥有包括260类、2万甲骨文文字的数据库。相信通过计算机视觉的方式,甲骨文识别技术不仅能让汉语言学家们大大提升工作效率,也能拉近普通大众与神秘的甲骨文之间的距离。而蕴含着微软亚洲研究院多年努力的甲骨文识别技术,保持着微软一贯开放的心态,期待与相关机构和高校的合作,让现代技术为传统文化带来生机。​