微软识花是怎么实现的？

标签：微软 | 发表时间：2017-08-10 10:30 | 作者：微软亚洲研究院

出处：http://www.zhihu.com

计算机视觉用于物体图像识别和图像分类对很多人来说可能已经不是新鲜事，但 精细化物体分类就相对更加神秘，它从成千上万种动植物中分辨出具体种类，满足用户在实际生活中的识别需要，这也正是“微软识花”这款应用背后的秘密所在。近日，微软亚洲研究院多媒体搜索与挖掘组的研究员们通过大量的实验观察及讨论提出了一种 基于递归注意力模型的卷积神经网络，能够让精细化物体分类成为现实。

————这里是正式回答的分割线————

在日常生活中，我们可以很容易地识别出常见物体的类别（比如：计算机、手机、水杯等），但如果进一步去判断更为精细化的物体分类名称，比如去公园游览所见的各种花卉、树木，在湖中划船时遇到的各种鸟类，恐怕是专家也很难做到无所不晓。不过，也可见精细化物体分类所存在的巨大需求和潜在市场。

虽然精细化物体分类拥有广阔的应用前景，但同时也面临着艰巨的挑战。如下图所示，每一行的三种动物都属于不同种类，但其视觉差异却非常微小。要分辨他们，对于普通人来说绝非易事。

通过观察我们不难发现，对于精细化物体分类问题，其实形态、轮廓特征显得不那么重要，而细节纹理特征则起到了主导作用。 目前，精细化分类的方法主要有以下两类：

基于图像重要区域定位的方法。该方法集中探讨如何利用弱监督的信息自动找到图像中有判别力的区域，从而达到精细化分类的目的。
基于图像精细化特征表达的方法。该方法提出使用高维度的图像特征（如：bilinear vector）对图像信息进行高阶编码，以达到准确分类的目的。

然而，这两种方法都有其各自的局限性。最近，微软亚洲研究院多媒体搜索与挖掘组的研究员们通过大量的实验观察以及与相关领域专家的讨论，创造性地提出了 “将判别力区域的定位和精细化特征的学习联合进行优化”的构想，从而让两者在学习的过程中相互强化，也由此诞生了“Recurrent Attention Convolutional Neural Network”（RA-CNN，基于递归注意力模型的卷积神经网络）网络结构。这种网络可以更精准地找到图像中有判别力的子区域，然后采用高分辨率、精细化特征描述这些区域，进而大大提高精细化物体分类的精度。该项工作已经被CVPR 2017(计算机视觉与模式识别)大会接收，并应邀做了报告分享，点击此处可查看论文《RA-CNN：基于递归注意力模型的卷积神经网络》。

其实，这样的情况在精细化物体分类问题中非常普遍。看似相似的两张图片，当我们把有判别力的区域放大后却发现大相径庭。而“RA-CNN”网络则有效地利用了这一特点，通过将不同尺度图像的重要区域特征融合，以确保重要信息充分发挥作用：有用的信息不丢失，同时噪声得到抑制。

只需输入一张图片，“RA-CNN”便可自动找到不同尺度下的有判别力区域：上图中蓝色部分是分类子网络，它们将多个尺度的图片用相应的卷积层提取出特征后送入softmax 分类器，再以类别标签作为监督对卷积层和分类器参数进行优化，当最终分类时，将各个尺度的特征拼接起来，用全连接层将信息充分融合后进行分类。

上图中的红色部分则是定位子网络，其输入是一张图片的卷积层特征，而输出的是这张图片有判别力区域的中心坐标值和边长。定位子网络以层间的排序损失函数作为监督，优化下一尺度的图片子区域在正确类别上的预测概率大于本尺度的预测概率，这样可以促使网络自动找到最有判别力的区域。有了重要区域的坐标，再对原图进行裁剪和放大操作便可得到下一尺度的输入图片，而为了使网络可以进行端到端的训练，研究员们设计了一种对裁剪操作进行近似的可导函数来实现。以下是“RA-CNN”在三个公开数据集上找到的有判别力区域的例子及对应的分类精度：

看到这里或许你对“RA-CNN”精细化物体分类问题的解决原理及其效果有了一定的了解，想要亲自感受精细化物体分类技术的独特魅力的小伙伴们可以下载微软亚洲研究院推出的智能识别应用—— 微软识花一键体验哦~

————这里是回答结束的分割线————

以上回答摘选自微软研究院AI头条，基于递归注意力模型的卷积神经网络：让精细化物体分类成为现实。

感谢大家的阅读。

本账号为微软亚洲研究院的官方知乎账号。本账号立足于计算机领域，特别是人工智能相关的前沿研究，旨在为人工智能的相关研究提供范例，从专业的角度促进公众对人工智能的理解，并为研究人员提供讨论和参与的开放平台，从而共建计算机领域的未来。

微软亚洲研究院的每一位专家都是我们的智囊团，你在这个账号可以阅读到来自计算机科学领域各个不同方向的专家们的见解。请大家不要吝惜手里的“邀请”，让我们在分享中共同进步。

也欢迎大家关注我们的微博和微信 (ID:MSRAsia) 账号，了解更多我们的研究。

来源：知乎 www.zhihu.com
作者：微软亚洲研究院

【知乎日报】千万用户的选择，做朋友圈里的新鲜事分享大牛。点击下载

此问题还有 20 个回答，查看全部。

微软迷踪

- 晋安渔夫 - cnBeta.COM

上周一，即微软CEO史蒂夫・鲍尔默来华访问前一天，微软（Microsoft）市值15年来首次被IBM超越. 这是继去年被苹果公司挤下IT市值王座之后，微软排名再度滑落. 但这并未影响鲍尔默来华展示微软对于移动互联网的野心，他在演讲中透露，Windows Phone未来几个月内将进入中国.

微软大变身？

- - 爱范儿 · Beats of Bits

本周，微软做了一件很特别的事情. 它召集了许多媒体，在好莱坞开了一个新产品的发布会. 发布会上曝光的新产品是微软自己的平板：Surface. Surface 的出现立刻成为科技界热烈争论的话题，它能够产生什么样的影响，目前仍不好做断言，但微软此次发布平板的举动，肯定会与 OEM 形成竞争关系，这在以前是没有过的事情.

微软发布Kinect SDK For Windows

- skyan - Solidot

微软遵守承诺发布了Kinect SDK For Windows，允许教育研究人员或爱好者为这种体感控制器开发新的应用. SDK是基于XBOX 360上使用的软件，但微软将其移植到了.NET平台，支持C#、VB.NET或C++.NET等开发语言. Kinect SDK For Windows的运行平台是Windows 7，最低硬件需求是4GB RAM、双核处理器和DirectX 9.0c显卡，开发工具是Visual Studio 2010 Express（免费版），.NET Framework 4.0.

微软关闭Windows Live Spaces

- 柑桔 - 月光博客

　　微软今天发布消息称，微软即将关闭已经运营了四年的Windows Live Spaces服务，并在未来六个月中将用户转移至WordPress.com博客平台. 　　微软和Wordpress共同宣布了这一消息，目前Windows Live Spaces拥有3000万用户，而WordPress拥有2600万用户.

微软发布Python IDE

- Tim - Solidot

微软发布了Python编程开发工具Python Tools for Visual Studio（PTVS）. PTVS是一个开源项目，采用Apache 2.0许可发布. PTVS的主要特性包括：CPython、IronPython、Jython和PyPy；高级编辑功能如IntelliSense；多重构；内置REPL（read-eval-print loop）窗口；调试和分析功能，等等.

微软发布WebMatrix 2 beta

- Besson - cnBeta.COM

WebMatrix 是微软最新的 Web 开发工具，它包含了构建网站所需要的一切元素. 您可以从开源 Web 项目或者内置的 Web 模板开始，也可以直接从无到有编写代码. 今天微软公布了WebMatrix 2的测试版，带来了一系列模板和流行的Web应用支持.

微软Hotmail无法访问

- Tim - 月光博客

　　今天上午，世界最大的电子邮件服务之一：微软Hotmail出现了大规模长时间无法访问的状况，同时无法访问的还有微软的SkyDrive等服务. 　　通过对其域名的测试发现，Hotmail的域名在某些地区无法解析出IP地址，Ping不通，其NS服务器同样也Ping不通，怀疑有可能宕机. 　　中午时候，微软在Hotmail官方Twitter发布声明称，因为停电的原因导致Hotmail、SkyDrive等服务故障，目前正在积极努力的解决这个问题.

微软的再度崛起

- William - It Talks-魏武挥的blog

在舆论的视野中，微软在网络时代的表现一向有点负面. 这个昔日的软件霸主，面对咄咄逼人的谷歌，给人一种感觉就是老去的王者. 不过，如果我们严谨一点来审视的话，事实并非如此. 比如说，最新的2011年第二季度财报，微软的利润为66.3亿美元，相比之下，市值超过它近600亿美元的苹果，利润为60亿美元. 在这份财报中，我们看到，软件领域有了24%的增长，其中，微软的office并没有受到谷歌文档的多大冲击.

微软的苹果香味——专访微软MacBU组成员

- 地安门城管 - 《程序员》杂志官网

这是一只游走于微软和苹果两家公司、两大产品平台之间的特殊团队，与使用PC和Windows Phone的微软人不同，他们日常使用的是Mac电脑和iPhone手机，还时不时要向不理解“为什么要为苹果开发应用软件”的同事解释原因. 在微软内部，他们被称作MacBU组. 今年6月1日，MacBU组年内最重要的一项产品——Office 2011 for Mac中文版正式发售，这是1985年以来微软推出的第一个基于Mac平台的中文版Office系统，新版Office for Mac首次加入了Outlook组件，引入了广受欢迎的Ribbon界面，同时力求兼顾Mac用户的使用习惯.

诺基亚为什么选择微软

- Tony - 月光博客

　　金融有一个你我心知肚明的核心——资本是稀缺资源，由此催生了很多行业. 人生可以钱为唯一目标，但是产业发展和推动，资本确是第一位的，这是不可争辩的事实. 当传统产业，金融业无法满足融资和资本聚集效应的要求的时候，就必然产生更大杠杆率的上层产品，所谓的金融衍生品，这是题外话，略过不提. 　　IT产业是一个特殊的产业，特殊性就是控制标准和核心技术的大企业，必然要更多的科研资金，在盈利中拨备足够的科研发展基金和风险覆盖.