分享到微博 分享到人人 分享到LinkedIn 分享到Email
独家揭秘|编程之美决赛的大牛们(二)

自2012年起,编程之美挑战赛这个面向高校学生的大型编程比赛已成功举办了四届。今年,共吸引了来自150所高校的20000余名学生的热情参与。除传统的编程赛外,本届大赛还特别增设了创意赛,以鼓励非计算机专业的青年学生充分发挥自身在不同学科领域的创造性,用全新的方式探索、呈现编程之美。

最终,来自工业设计、广告学、管理信息系统等不同专业的60名青年高手在上海微软科技园区展开了一场没有硝烟却“键影重重”的巅峰对决。让我们一起看看闯入决赛的大牛们的精彩作品吧!

决赛赛题之智能电子相框

电子相册通过动态播放照片的形式让图片的展现变得更加多姿多彩,是很多人喜爱的留存回忆的方式之一。但是电子相册也有其局限性--交互性不强。如今基于微软认知服务,电子相册将被赋予更多突破性功能。未来,人们需要这样的智能电子相册系统:

  • 用户可使用语音对其发出指令
  • 系统能将语音转化为文本并理解语音的含义
  • 对用户的语音内容及时执行相关操作
  • 此系统必须能响应以下三种类型的语音控制:(1)时间 (2)地点 (3)人物

语音样例:

“Show me all photos for Jhon” (我要看约翰的所有照片), “Find Jhon's photos taken in Seattle, US in March 2016”(帮我找约翰今年3月份在美国西雅图拍的照片), “find John's photos with Satya” (找到约翰和Satya的合照)。

备注:

此系统需要基于微软认知服务中的语言理解服务LUIS (https://www.luis.ai/Help)与语音识别服务(https://www.microsoft.com/cognitive- services/en-us/speech-api),也可以使用微软认知服务中的其他服务,详细请参考https: //www.microsoft.com/cognitive-services/为了节约选手们建立LUIS训练模型的时间,决赛时主办方提供一个基础的LUIS demo app,其中包含各类操作的映射逻辑,参赛选手也可以在此基础上扩展model,增加一些新奇有趣的功能。

微软认知服务

微软认知服务(https://www.azure.cn/cognitive-services)让你仅用几行代码就可以借助强大的算法开发应用程序。它们跨设备,跨平台,不论是iOS、Android或者Windows,你都可以轻松完成配置。

1. 便捷的手势识别

Percepicture

该智能电子相框主要用于展陈,家居,旅行等场景。特别在展陈中,用户无需触摸屏幕,可直接通过手势进行操作,对于旋转图片,翻页等功能,手势操作更简单易用,大大提高了用户体验。

技术亮点

1. 通过必应语音识别与LUIS智能意图分析得到用户的意图,再将意图与图片库中的图片进行匹配得到想要的的图片。

2. 在算法方面,关键词匹配采用word2vec技术,对图片的标签进行训练并映射到高维空间,在大数据时代提高了搜索的准确率。

3. 在UI方面,植入了基于手势识别体感操作,使得交互更加友好。整个系统可以通过语音和体感两种方式控制。

哆啦A梦

王钦 高逸斌 殷锟 杨剑飞

2. 多种交互模式

Splash Photo

Splash Photo是借助微软认知服务API打造出的智能语音电子相框。它是您的私人相册管家,可以利用声纹进行身份认证,对不同用户给予不同的操作权限。用户可以在3D模式下查看照片,并进行丰富精彩的交互。同时Splash Photo也能用动态的时间轴模式来帮您回忆过去的精彩瞬间。

它的工作流程为:

本地实时监听——>调用微软语音识别API——>文本形式的指令——>调用LUIS的Search API——>实际指令——>转化为显示级命令——>前端进行展示。

技术亮点

1. Web端实现,兼容多平台

2. Three .js以及相关js框架实现立体展示与动画效果,增强用户体验

3. 根据声纹识别API确认发出命令者的身份,给予不同权限4. 根据用户喜好, 利用必应搜索API从互联网搜索合适的图片进行展示

小西门鹅腿好好呲

苗睿 潘虹 孙晓宇 方浩树

 

3. 分享与互动之旅

Photo Share

一款智能电子相册分享软件,以为照片分类为核心功能,致力于打造一个自由分享工具。通过Photo Share,你可以尽情整理和分享你的生活,借助社交平台结识跟你有共同兴趣爱好和生活方式的朋友。

技术亮点

1. Photo Share借助麦克风设备进行声控解锁;

2. 使用WPF用户界面框架,技术与设计明确分工富有效率;

3. 基于LUIS语言理解服务与语音服务理解用户意图并智能整理分类图片;

4. 接入社交软件开放API接口融入社交分享属性,促进用户间形成互动

Go.Go.Go

丁赫 林剑颖 盛武斌 杨国峰

4. 还原3D实境

Vivid

结合微软的Hololens与Cognitive Services,Vivid有四大特点:
1. 它是相框,但不只是相框

2. 扩增实境,逼真3D效果还原现场情绪

3. 呼叫社群,关键名字开个群聊叙叙旧

4. 语音控制,理解含义并标籤

技术亮点

1. 不受框架限制,从网页端做适配,多平台兼容;

2. ComputerVisionAPI将摄像中的「事、物」两者作标籤

3. FaceAPI加上CRISAPI针对视频音档的双重验证,每位朋友的摄像精准分组

4. BingSpeechAPI读入语音,转成文本后,再利用LUISAPI理解中的含义; 除此之外,EmotionAPI将人的情绪赋予含义,同时结合语音识别监控关键字

小月河畔水痕清

吴晓玮 陈宽 施隈隈 許秉鈞