人脸识别新工具:数据少也能认识“国际脸”

标签: 人脸识别 工具 数据 | 发表时间:2019-10-28 21:13 | 作者:
出处:http://www.cnbeta.com/

日前,亚马逊的一款人脸识别工具错误地将28位美国国会议员与罪犯相匹配,这一新闻引发关注。人脸识别工具为何出现这样的错误?其实,机器与人类一样,见到陌生的外国人也会有“脸盲”,只能识别“当地人”,对于来自其他国家/地区的“外地人”识别精度较低,这一问题如何解决呢?

引用公开的个人信息进行研究与验证 邓伟洪团队供图

研究团队在讨论 邓伟洪团队供图

其关键在于让人脸识别工具尽量多地认识全球各地居民的脸,而这一过程却并不容易实现。北京邮电大学教授邓伟洪告诉《中国科学报》,人脸识别工具研发过程中,使用的训练数据越多、越齐全,精度就会越高。但由于不同国家/地区对公民个人信息的保护,这些信息收集越来越难。没有训练数据就意味着人脸识别工具只认识“熟人”,而对于训练数据中缺失的人群的识别精度较低。

近日,邓伟洪研究团队的一项研究获得新进展,该团队揭示了当前人脸识别算法中普遍存在跨国家/地区识别偏差问题,构建了评价偏差程度的人脸数据集RFW,提出了减小识别偏差的信息最大化自适应神经网络,以改进对目标域的识别能力。10月27日,相关研究结果在由IEEE主办的国际计算机视觉大会(ICCV)上发表。

人脸识别工具的地域之困

卷积神经网络是人工智能的代表算法之一,具有很强的图像表征学习能力。2012年,深度卷积神经网络在计算机视觉领域兴起,其出现极大地推进了人脸识别的发展,并成为人脸识别领域的主流技术。

目前,全球的人脸识别工具大多根据深度卷积神经网络的技术开发,但该技术的人脸数据的源域基于西方人的面部特征,面对不同的目标域,即不同国家/地区居民的面部信息识别需求往往“力不从心”。

邓伟洪表示,由于缺乏基准测试库,这一领域的研究长期进展缓慢。一款人脸识别工具即使在当地的识别率很高,也难以精准到全球人类。这就造成了人脸识别工具较强的地域性。

为了推动该研究,邓伟洪研究团队构建了一个新的测试库——RFW,以科学客观地评测人脸识别中的偏差。

在RFW数据库的基础上,研究人员验证了 微软、亚马逊、百度、旷视的商业API和学术界最先进的4个算法。

“这种识别的偏差确实存在,一些地区的错误率甚至高于西方国家的两倍。”邓伟洪说。

该论文的评审专家表示,RFW与现有数据库相比,该数据库中的数据分布更均匀,这将成为跨国家/地区识别的一个较好的基准评价数据。

为了探究这种偏差是否是由训练数据的分布不平衡引起的,研究人员收集了一个涵盖全球各地区人类信息的训练数据库,最终发现偏差的发生受到数据和算法两方面影响。

该论文第一作者、北京邮电大学博士生王玫解释,数据库训练数据平衡、算法相同,但某些国家/地区人类的面部信息识别难度较大,导致识别准确率较低。

如何在数据少、面部识别难的情况下提高识别率?研究人员并没有放弃,他们决定进一步的研究算法,借助算法让人脸识别工具举一反三。

学习靠“自觉”

传统机器学习数据库搭建过程中需要人工标注个人信息,这一操作面临隐私泄露的风险。用于物体识别的无监督域自适应方法给了研究人员启发。

该方法采用无监督学习的方式,将源域和目标域映射到域不变的特征空间,并提高目标域性能。研究人员想通过算法解决这一问题,让机器自行学习。

“这就相当于研究人员把试卷出好,机器作答。”邓伟洪说。

实现并不简单,在具体操作层面,物体识别不同于人脸识别。物体识别的源域和目标域可以重叠,且信息获取相对便宜,充足的源域数据使识别工具能够区分和判别目标域信息。

因此,研究人员提出了一种信息最大化自适应网络。王玫介绍,该方法一方面减小源域和目标域的全局分布差异,另一方面能够学习有区分性的目标域特征。

“也就是说,卷积神经网络可以在无监督的情况下,‘自觉’地学习目标域人脸的特征。”王玫说。

为了解决两个域之间类别不重叠的问题,信息最大化自适应网络采用谱聚类算法生成“伪标签”,并在监督下利用伪标签对网络进行预适应,初步提高目标域的性能。

这种聚类方案与其他不适用于人脸识别的域自适应方法有着本质区别。王玫解释,新方法可以在全新的目标域上自主学习,不需要人工干预,避免了隐私泄露的风险。

为了进一步提高网络输出的鉴别性,研究人员还提出了一种新的基于互信息的自适应方法,它以无监督的方式在目标域的特征之间产生更大的间距。

与一般的有监督的损失和有监督的互信息不同,该方法具有无监督的特性,其可以利用所有无标签的目标域数据,无论这些数据是否被成功地分配了伪标签。

基于公开数据进行验证

这套方案是否能在非监督的情况下,提高人脸识别工具对不同国家/地区居民脸部信息的识别率呢?

研究人员采用全球各地名人的公开数据进行验证。结果表明,信息最大化自适应网络可以成功地将识别能力从源域应用到其他国家/地区的目标域人群中,且识别性能优于其他域自适应方法。消融实验研究发现,互信息损失对减少识别偏差有重要作用。

王玫补充,信息最大化自适应网络在跨姿态、跨场景的应用上也有很好的泛化性能。

鉴于较好的实验结果,研究团队已经对外发布RFW数据集,以推进研究进一步深入。

目前,已有哈佛大学、帝国理工学院、清华大学、思科、 华为、NEC、IBM等20多个国家的科研院所、企业的科研团队申请使用RFW进行多人种人脸识别研究。

值得一提的是,该方法在进行自适应学习的同时,仍然需要利用源域地区采集的标注数据对模型进行训练。这就意味源域数据具有隐私泄露风险。如何在源域数据不外传的情况下进行目标域的自适应学习,将是非常值得研究的问题。

邓伟洪表示,下一步希望在完全不采集目标域数据的情况下,提出具有更强泛化能力的新算法,直接提高人脸识别工具在未知目标域的准确率。

相关论文信息:http://whdeng.cn/RFW/index.html

相关 [人脸识别 工具 数据] 推荐:

人脸识别新工具:数据少也能认识“国际脸”

- - cnBeta.COM 全文
日前,亚马逊的一款人脸识别工具错误地将28位美国国会议员与罪犯相匹配,这一新闻引发关注. 人脸识别工具为何出现这样的错误. 其实,机器与人类一样,见到陌生的外国人也会有“脸盲”,只能识别“当地人”,对于来自其他国家/地区的“外地人”识别精度较低,这一问题如何解决呢. 引用公开的个人信息进行研究与验证 邓伟洪团队供图.

国内某人脸识别公司数据泄露 影响超250万人

- - IT瘾-tuicool
2月15日,根据某404网站,以及微博安全应急响应中心消息,国内某人脸识别公司发生大规模数据泄露事件. 超过250万人的数据可被获取,680万条记录泄露,其中包括身份证信息,人脸识别图像及捕捉地点等. 这家公司的对外简介是将深度学习等前沿先进技术用于监控视频分析,实际上就是提供面部识别技术和人群分析技术,并提供公开数据库可在线查找.

【人脸识别】初识人脸识别

- - CSDN博客推荐文章
由于导师给我们布置了每周阅读两篇大牛论文,并写ppt的任务. 反正ppt都写了,所以我想干脆直接把ppt的内容再整理一下写成博客. 近期的阅读论文都是 人脸识别相关的主题. 如果你研究过人脸识别,或者对这方面有兴趣,那么你一定听说过Paul Viola. 他可以算得上是人脸检测识别的始祖,他的一篇大作《RobustReal-time Object Detection》可以说是人脸识别领域最重要的一篇论文.

Facebook宣布不再使用人脸识别技术 将删除超过10亿用户数据

- - TechWeb 每日热点推荐 RSS阅读
11月3日消息:Facebook 今天凌晨宣布,该公司将终止使用人脸识别系统,并将删除超过10亿人的人脸识别模板. 数据显示,已有超过三分之一的日活用户(逾6亿个账户)在Facebook上选择使用人脸识别技术. Facebook人脸识别系统可以自动识别发布在社交媒体的照片和视频中人的面部. 据报道,此举是新更名的Meta公司人工智能副总裁Jerome Pesenti在一篇博文中提及,Pesenti表示,Facebook将在未来几周关闭其面部识别系统,删除超过10亿人的个人面部识别数据,「作为公司对于面部识别使用限制的一部分」.

人脸识别黑产

- - 奇客Solidot–传递最新科技情报
新京报 报道了人脸识别的地下黑产交易,有许多应用都需要人脸验证,创造了对人脸验证的一种需求,催生了一个地下产业链. 报道称,人脸识别的优质数据需要一百元一套,而便宜量大的仅需要 0.5元一套. 报道称一小部分来自网络刷单兼职人员,大部分来自企业内部员工. 人脸识别的黑产商贩称,市面上流通的手持身份证照片大多是在小额贷款平台和公司野蛮发展期间,泄露出来的,还有部分是从各行业收集而来的,这种信息交易和使用一般情况下不会被人发现,“当时很多人借钱不还,平台就把这些信息拿出来卖钱了,刚开始挺贵的,现在层层转卖就便宜了.

【转载】用HTML5进行人脸识别

- - HTML5研究小组
其中的一个特性是getUserMedia( W3C规范 ). 它是一个JavaScript API,可以让你访问(需要权限)用户的网络摄像头和麦克风. 今天发现一篇文章写的很有趣,叫你如何使用HTML5进行人脸识别. 在网页内进行人脸识别,很好很强大. “现代Web”不断发展出不少有趣的API,但你并不会在大多数项目中使用到所有的内容.

自动人脸识别基本原理

- - IT技术博客大学习
标签:   https://b2museum.   人脸识别经过近 40 年的发展,取得了很大的发展,涌现出了大量的识别算法. 这些算法的涉及面非常广泛,包括模式识别、图像处理、计算机视觉、人工智能、统计学习、神经网络、小波分析、子空间理论和流形学习等众多学科. 所以很难用一个统一的标准对这些算法进行分类.

用python库face_recognition进行人脸识别

- - 开源软件 - ITeye博客
期间在安装依赖包dlib时遇到问题,解决见:  http://kissmett.iteye.com/blog/2409857. 3.通过摄像头实时在获取的帧上进行人脸识别(较卡顿). basefacefilespath ="images"#faces文件夹中放待识别任务正面图,文件名为人名,将显示于结果中 baseface_titles=[] #图片名字列表 baseface_face_encodings=[] #识别所需人脸编码结构集 #读取人脸资源 for fn in os.listdir(basefacefilespath): #fn 人脸文件名.

人脸识别发展史与算法综述

- king - CSDN博客推荐文章
      在我们生存的这个地球上,居住着近 65 亿人. 每个人的面孔都由额头、眉毛、眼睛、鼻子、嘴巴、双颊等少数几个区域组合而成,它们之间的大体位置关系也是固定的,并且每张脸的大小不过七八寸见方. 然而,它们居然就形成了那么复杂的模式,即使是面容极其相似的双胞胎,其家人通常也能够非常容易地根据他们面孔上的细微差异将他们区分开来.

温习传闻:Facebook收购人脸识别创业公司Face.com

- - 业界
导读:准备好再听一个后IPO 时代的Facebook 收购的传闻吗. 事实上,Face.com 传言将成为Facebook 的收购目标由来已久. 虽然我们还不能确定这次收购能否成真,但本文给出的一些分析还是饶意义的. 据以色列商业报纸Calcalist披露,社交网络巨人将要收购人脸识别科技公司Face.com.