李沐等将目标检测绝对精度提升 5%,不牺牲推理速度

标签: 目标 绝对 精度 | 发表时间:2019-02-15 11:53 | 作者:机器之心
出处:https://www.jiqizhixin.com/

目标检测无疑是计算机视觉领域最前沿的应用之一,吸引了各个领域诸多研究者的目光。最前沿的检测器,包括类似 RCNN 的单(SSDYOLO)或多阶神经网络都是基于图像分类骨干网络,如 VGGResNet、Inception 或 MobileNet 系列。

然而,由于模型容量和训练复杂度相对较高,目标检测受到的关注相对较少,从最近的训练微调研究中获益也较少。更糟糕的是,不同的检测网络在没有明确的初始化、数据预处理及优化分析的情况下就开始挑选自己的训练流程,导致在采用最新的技术改进图像分类任务时出现了大量的混乱。

本文的研究者致力于探索能够在不造成额外计算成本的情况下有效提升流行的目标检测网络性能的方法。他们首先在目标检测上探索了一种混合技术。与《mixup: Beyond Empirical Risk Minimization》不同,本文的研究者认识到了多目标检测任务的特殊性质有利于实现空间不变的变换,因此提出了一种用于目标检测任务的视觉相干(visually coherent)图像混合方法。接下来,他们探讨了详细的训练流程,包括学习率调度权重衰减和同步 BatchNorm。最后,他们探索了其训练微调的有效性,方法是逐渐将这些微调叠加,以训练单或多阶段目标检测网络。

本文的主要贡献如下:

  • 首次系统地评估了不同目标检测流程中应用的多种训练启发式方法,为未来的研究提供了有价值的实践指导。

  • 提出了一种为训练目标检测网络而设计的视觉相干图像混合方法,而且证明该方法可以有效提升模型的泛化能力。

  • 在不修改网络架构和损失函数的情况下,在现有模型的基础上实现了 5% 的绝对精度性能提升。而且这些提升都是「免费的午餐」,无需额外的推理成本。

  • 扩展了目标检测数据增强领域的研究深度,显著增强了模型的泛化能力,减少了过拟合问题。这些实验还揭示了可以在不同网络架构中一致提高目标检测性能的良好技术。

所有相关代码都是开源的,模型的预训练权重可以在 GluonCV Toolkit 中获取。

Gluon CV Toolkit 链接:https://github.com/dmlc/gluon-cv

图 1:Bag of Freebies 在不牺牲推理速度的前提下,显著提高了目标检测器的性能。


论文:Bag of Freebies for Training Object Detection Neural Networks

论文链接:https://arxiv.org/pdf/1902.04103.pdf

摘要:与针对更好的图像分类模型所取得的巨大研究成就相比,训练目标检测器的努力在普及性和普遍性方面都存在不足。由于网络结构和优化目标要复杂得多,针对特定检测算法专门设计了不同的训练策略和流程。在本文中,我们探索了通用的微调,这些微调有助于在不牺牲推理速度的前提下将当前最佳的目标检测模型提高到一个新水平。我们的实验表明,这些「freebies」可以提高 5% 的绝对精度。

3. 技术细节

我们提出了一个用于目标检测的视觉相干图像混合方法,还介绍了为系统提升目标检测模型性能而设计的数据处理和训练调度器。

3.1 用于目标检测的视觉相干图像混合

Zhang 等人在《mixup: Beyond Empirical Risk Minimization》中引入的混合概念被证明在分类网络中减少对抗干扰方面非常成功。他们提出的混合算法中混合比例的分布来自β分布(a = 0.2, b = 0.2)。大多数的混合几乎都是这种β分布的噪声。受到 Rosenfeld 等人启发式实验的激励,我们关注自然共现的目标呈现,这种呈现在目标检测中扮演重要角色。半对抗目标补丁移植方法不是传统的攻击方法。通过应用更复杂的空间变换,我们引入了遮挡,即在自然图像呈现中常见的空间信号干扰。

我们的实验中继续增加了 mixup 中使用的混合比例,由此产生的帧中的目标更有活力,也更符合自然表现,类似于低 FPS 电影中常见的过渡帧。图像分类和此类高比例 mixup 的视觉对比如图 2 和图 3 中所示。我们还使用了保留几何形状的对齐方式来进行图像混合,以避免在初始步骤中扭曲图像。我们还选择了视觉相干性更强的β分布,a >= 1 和 b >= 1,而不是按照图 4 所示的图像分类中相同的做法。

我们还通过实验利用 YOLOv3 网络在 Pascal VOC 数据集上测试了经验混合比分布。表 1 显示了采用检测混合方法的实际改进情况。α和β都等于 1.5 的β分布略优于 1.0(相当于均匀分布),也优于固定均匀混合。

表 1:在 Pascal VOC 2007 测试集上用 YOLOv3 验证多种混合方法的有效性。加权损失表示总体损失是多个比例为 0 比 1 的目标的损失之和,该比例是基于它们在原始训练图像中所属的图像混合比例算出的。

4. 实验

为了对比所有微调方法对目标检测结果的改进,我们分别使用 YOLOv3 和 Faster-RCNN 作为单或多阶段 pipeline 的代表。为了适应大规模训练任务,我们使用 Pascal VOC 对精调技巧做评估,使用 COCO 数据集对总体性能提升和泛化能力做验证。

图 7:在 COCO 2017 验证集上利用 BoF 得到的检测结果示例。

图 8:YOLOv3 在 COCO 数据集 80 个类别上的 AP 分析。红线表示使用 BoF 的性能提升,蓝线表示性能下降。

图 9:Faster-RCNN resnet 50 在 C0C0 数据集 80 个类别上的 AP 分析。红线表示使用 BoF 的性能提升,蓝线表示性能下降。

表 2:对 YOLOv3 的训练精调,在 Pascal VOC 2007 测试集 416×416 图像上评估。

表 3:对 Faster-RCNN 的训练精调,在 Pascal VOC 2007 测试集 600 × 1000 图像上评估。

表 4:利用 bag of freebies(BoF) 方法取得的进步,在 MS COCO 2017 验证集上评估。


表 5:预训练图像分类和检测网络混合方法影响的组合分析。

表 6:预训练图像分类和检测网络混合方法影响的组合分析。

相关 [目标 绝对 精度] 推荐:

李沐等将目标检测绝对精度提升 5%,不牺牲推理速度

- - 机器之心
目标检测无疑是计算机视觉领域最前沿的应用之一,吸引了各个领域诸多研究者的目光. 最前沿的检测器,包括类似 RCNN 的单(SSD 或 YOLO)或多阶神经网络都是基于图像分类骨干网络,如 VGG、ResNet、Inception 或 MobileNet 系列. 然而,由于模型容量和训练复杂度相对较高,目标检测受到的关注相对较少,从最近的训练微调研究中获益也较少.

生命有一种绝对

- Desmond - Desmondの小窝
LittlePhoto 一款无脑而有趣的Android图片处理软件. 一帮德国天才刷新LED无线局域网带宽纪录:800Mbps.

下一个目标:广播

- yimin - It Talks-魏武挥的blog
从报纸杂志到书籍电视,传统媒体在全方位地受到数字媒体的冲击,数字革命的颠覆性正在横扫一切传统媒体的角落,现在看来,最后一个堡垒:广播业,也将迎来有力挑战. 美国著名传媒杂志《Media Life》在去年年底展望2011年全美传媒行业的时候,还很乐观地估计,广播行业将从09年的14%衰退中迎来复苏. 在当时,潘朵拉(Pandora.com)这类“网络电台”已经兴起,但该杂志依然满不在乎地说:“尽管Pandora互联网广播服务和其它网站可以依据个人喜好定制个性化网络电台服务,但那仍然属于小众市场.

我的愿望与目标

- bill boy - 嘉佑中文博客
中午,大学校友通过微信语音留言给我,说他要回家结婚了,7月5日走,要请我吃饭. 他们在台州本地的团购网站上预订了晚餐,我跟他们刚刚从九峰山下的某酒店吃完回来. 他们打算 10月2日 结婚,再三嘱咐我一定要过去参加他们的婚礼. 我肯定届时会去郑州,但是这很可能是最后一次在台州见他们. 又一个朋友,而且是很要好的朋友,就要走了,有点失落因为在台州又少了一个依靠,同时也让我多了一个离开黄岩的借口.

有目标?请闭嘴

- - Starming星光社最新更新
当你给了自己一个全新的目标,你会不会想要跟身边(亲密)的人分享它呢. 通常来讲,很多人都会说出来,在这种行为背后,有些是出于“期望获得来自他人的有效监督”的目的,而有些则纯粹是觉得“没什么好隐瞒的,不妨说出来”. 但如果效率天阶告诉你:当有一天你的目标宣告失败(或迟迟不能达成),其根本原因却仅仅是因为你“告诉别人了”,你会不会觉得难以置信呢.

谈技术团队目标

- - Tim[后端技术]
技术主管新年想得最多的一件事必定是如何比上一年做得更好. 宏大的目标设定每个团队都会做,谈几个不引人注意的小问题. 见过一些技术团队将计划定义为“按时完成需求”,需求驱动并没有什么不对,但是研发工作仅考虑被动需求的话是很难做好. 之前完成的许多需求有什么共性. 经常出问题/bug/故障的项目/功能/模块是哪些.

目标管理体系:OKR

- - 标点符
OKR体系的全称是Objectives & Key Results,即目标与关键成果. 所谓OKR,O = Objective 可以理解为企业目标,KR =Key Results 可以理解为关键结果. 浓缩在一起就是“为确保达成企业目标的关键结果分解与实施”. OKR是企业进行目标管理的一个简单有效的系统,能够将目标管理自上而下贯穿到基层.

豆瓣,大众,绝对小众

- inecho - 槽边往事
豆瓣刚刚做了一次小修改,原来用户只要点击想读某本书,想看某部电影,想听某张CD,就会自动在豆瓣的广播系统里生成一条信息,通知到这个用户的所有友邻. 修改之后,如果想同时发布一条广播,必须额外点一下复选框. 就这么大点事,又引发了一轮抗议风潮. 说风潮可能不大合适,因为豆瓣目前对外宣称有5000万用户.