技术资讯 | 浅谈相似视频检索技术

标签: tuicool | 发表时间:2020-01-19 00:00 | 作者:
出处:http://itindex.net/relian

前言

近几年视频成为了人们记录和分享生活的主要手段。

像抖音、快手等视频应用,越来越受到年轻人的喜爱。无论是活跃用户的数量,还是用户的视频创作量,每年都在显著增加。据相关统计,每分钟视频网站就要增加近400小时的内容[1]。

在这些新上传视频中,相似的视频往往不在少数。如果能够检测出其中相似的视频,对实现 视频去重版权保护热门视频推荐等具有重要的意义。

本篇文章将分享一些 相似视频检索最新的进展,包括:

1) 相似视频 定义

2) 公开数据集

3) 代表性 方法。

1

相似视频又称为 Near-Duplicate-Video(NDV)[2]。字面意思就是接近复制的视频。

相比于图像:

视频包含了 时间维度,使得视频包含了极为 丰富信息量。这也使得从内容上衡量两个视频变得比较困难。

为此学术界对 NDV类型的 视频做了一个定义,即相似视频是在原始视频上,在 光度画面编辑、以及 编码等方面进行了修改。具体如下:

比如下面的图像中,右边的视频在左边视频的基础上增加了 滤镜文字操作

 

而在下面的图片中:左边的视频和右边的视频拍摄的同一个场景,但是由不同的用户在不同时刻拍摄的,不符合相似视频的定义。

  

2

相关

数据集

相似视频检索技术已经有很长的发展历史,主要是是 从视频数据库中查找出和当前视频接近的视频,因而也出现了不少与之相关的数据集。

CC_WEB_VIDEOMUSICLE-VDCTRECVID以及 UQ_VIDEO这些数据集提出的时间比较早,数据集中查询视频的个数以及视频内容的丰富程度都比较低,不少采用传统特征的方法也取得了不错的效果。

近几年随着深度学习的火热,出现了更大规模的视频数据集 。19年的SVD短视频数据集拥有56万个视频,无论是查询 视频的数量以及视频在相似层面的变化程度,都 对现有的算法提出了更高的要求

此外像 FVIR细粒度事件检索数据集,包含更加宽泛的相似视频。而在老数据集上取得不错效果的一些方法,难以在新的数据集上跑出满意的效果。

3

代表

方法

相似视频检索的方法,主要包括两个主要步骤: 视频特征提取检索。此外按照 视频特征的类型,又可以分为 Frame LevelVideo Level[2]。

1)Frame Level 方法

Frame Level的方法对视频的每一帧图像提取特征,然后 通过逐帧计算图像相似性的方式来计算整个视频的相似度。

典型的代表方法是 循环时间编码(circulant temporal encoding)[3]。这种类型,对每帧图像提取SIFT特征并做PCA降维后,采用循环时间编码和频域变换来表达视频的特征向量,以此在数据库中检索。此外还有 空间核匹配(temporal matching kernel)[4]等方法。

基于freme level的方法运行 开销比较大很难应用在实际的场景中

2)Video Level方法

Video Level的方法,大多对视频 提取全局特征,并计算各个相似度来判断是否相似。尤其是随着深度学习的发展,大多数视频特征的提取采用深度学习模型来取视频特征。主要是 先对视频中的图像帧提取卷积特征再进行特征融合

2.1)  图像帧特征提取 

深度学习在图像领域中的大多数任务是基于图片。在面向视频任务时,先提取视频的帧,接着利用预训练的分类模型进行正向传播,取其分类器之前的各层特征向量,作为图像的特征。

大多数方法采用inamgenet上预训练的 VGGinception或者 resnet模型直接提取图像的特征向量,特征维度视模型的层数而定。

2.2)视频特征融合 

对视频的图像帧分别提取了卷积特征之后需要进行特征融合,得到视频层面的全局特征。针对这个过程研究人员提出了很多种方式,主要包括 pooling法BOW(bag of words)、 度量学习以及 哈希编码等。

2.2.1)pooling 

Pooling方法的思想是将视频中每帧的特征向量,在时间维度进行max pooling或者average pooling,从而 将多帧的特征转换为整个视频的特征

往往视频的长度是非固定的,将视频的多帧特征采用pooling的方式融合为全局特征向量,实现时间维度的特征压缩。这种方式 速度上有优势,但很大程度上 降低了特征的准确性

2.2.2)BOW词袋向量 

词袋向量的典型方法是 CNNL[2]为代表。这种方式在提取到每帧特征的基础上,将特征提取网络中每层特征向量经过事先预训练的词袋模型,得到每层特征对应的词袋直方图, 将不同层的特征向量拼接在一起,形成整个视频的表达特征。

论文中词袋的产生是每层取30万个特征样本进行聚类,得到1000个类中心,每层特征经过对应词袋时选择最近的聚类中心。

此外,此论文还提到也 直接将每一层的原始卷积特征拼接后,再经过相应的词袋,得到每帧的直方图。从而形成视频的直方图向量(CNNV),以此进行两个视频相似性的度量。

经过词袋模型对每帧图像特征的变换,相比于pooling的方式能更好的 保留视频中各个帧的特征,同时随着特征维度的降低,也会 加快视频的 检索过程。

2.2.3) 测量学习法 

这种方法代表为 DML(Deep Metric Learning)[5]。对视频的每帧提取特征,和上面的方法类似,接着采用average pooling的方式融合多帧的特征,并采用多层全连接网络将特征转换到可度量的欧式空间中,再以此计算相似度。

 

论进行特征空间映射的全连接网络需要 额外训练。论文中提出构建三元组的方式作为训练样本,每个三元组包含待查询的视频、相似的视频以及不相似的视频,三元组里两个相似视频的特征欧式距离要小于非相似视频间的距离。

因此每个 三元组loss函数如下图所示:

 

通过最小化训练样本中所有三元组的 loss函数之和,训练出最佳的全连接特征映射网络,从而 实现视频特征到度量空间的 最佳映射

相比于BOW这种方式需要较多的先验参数,通过测量学习的方式有 更好的泛化能力。这种方式同样将视频的多帧特征转换到了低维,可以 更快的检索

2.2.4)效果对比 

文章[1]在不同数据集上对比了上面的几种方法。

 

测量学习的方法虽然总体最好,但是随着视频变化程度的增加(如增加黑边、旋转等),所有方法的效果大幅度下降。

3)视频检索方法 

相似视频检索的 目的从大量的数据库中检索出与当前视频相似的视频

通过上面的方式获取视频的全局特征后,计算两个视频全局特征的距离可以判断视频的相似程度。因而可以逐个计算数据库中所有视频与当前视频的相似程度,找到相似度最高的那个视频,但是这种 暴力检索的方式,很难应对大规模的数据库。

另一种方式就是 哈希编码,在提取到视频的全局特征的基础上,对其进行哈希编码,基于哈希值可以大大提升视频检索的速度。

目前已经有不少哈希编码方法都可以对加速检索的过程。如:

locality sensitive hashing(LSH)

iterative quantization(ITQ)

isotropic hashing(IsoH)

Hamming distance metric learning(HDML)等

论文[1]在采用pooling的方式获取视频全局特征后,基于不同哈希编码的视频检索 效果对比如下:

 

在论文中采用的数据集上哈希编码的查询方法, 准确度于上面的几种方法。也可以看出哈希编码虽然可以加速视频检索的过程,但也会伴随着查询精度的下降。

除了上述的这些方法,其他诸如 3D卷积网络的视频提取方式也在逐步得到应用。相比于2d卷积融合的方法也有一定的优势,但是仍然面临 较大的时间开销

4

相似视频检索, 对视频业务来说其重要程度不言而喻。学术界将对图像提取特征的卷积网络,逐步应用到对视频特征提取上面,在诸如相似视频的检索方面,已经有了一定的成效。

但是在实际业务中视频的巨大数量以及繁多的内容类别,采用面向图片提取特征的手段,迁移到视频特征层面时仍然难以取得较好的效果,视频检索任务离真正落地应用还有很长的路要走。

参考文献:

[1]Jiang Q Y, He Y, Li G, et al. SVD: A Large-Scale Short Video Dataset for Near-Duplicate Video Retrieval[C]//Proceedings of the IEEE International Conference >

[2]Kordopatis-Zilos G, Papadopoulos S, Patras I, et al. Near-duplicate video retrieval by aggregating intermediate cnn layers[C]//International conference >

[3] J´erˆome Revaud, Matthijs Douze, Cordelia Schmid, and Herv´e J´egou. Event retrieval in large video collections with circulant temporal encoding. In CVPR, pages 2459–2466, 2013.

[4] S´ebastien Poullot, Shunsuke Tsukatani, Phuong Anh Nguyen, Herv´e J´egou, and Shin’ichi Satoh. Temporal matching kernel with explicit feature maps. In MM, pages 381–390, 2015

[5]Kordopatis-Zilos G, Papadopoulos S, Patras I, et al. Near-duplicate video retrieval with deep metric learning[C]//Proceedings of the IEEE International Conference >

投稿 | 内容标签团队

编辑 | sea

排版 | sea

往期推荐

在看点一下 大家都知道

相关 [技术 相似 视频] 推荐:

技术资讯 | 浅谈相似视频检索技术

- - IT瘾-tuicool
近几年视频成为了人们记录和分享生活的主要手段. 像抖音、快手等视频应用,越来越受到年轻人的喜爱. 无论是活跃用户的数量,还是用户的视频创作量,每年都在显著增加. 据相关统计,每分钟视频网站就要增加近400小时的内容[1]. 在这些新上传视频中,相似的视频往往不在少数. 如果能够检测出其中相似的视频,对实现.

网络视频技术问答(11):CDN如何为视频网站服务?

- - 钛媒体TMTpost
CDN是Content delivery network的缩写,即内容分发网络,它具有下图所示的结构. 而随着网站规模的扩大,自建CDN也是一种选择. 问:CDN如何为视频网站服务. 答:CDN是Content delivery network的缩写,即内容分发网络. 如上图所示,CDN由两种服务器组成:.

网络视频技术问答(13):什么是自适应流媒体技术?

- - 钛媒体TMTpost—把脉科技资本论
自适应流媒体技术,就是能够智能感知你的下载速度,然后动态调节视频的编码速率,为你提供最高质量、最平滑的视频演播的技术. 答:所谓自适应流媒体技术,就是能够智能感知您的网络质量,然后动态调节视频的编码速率,为你提供最高质量、最平滑的视频演播的技术. 在我们看视频的时候,我们的网络下载速度就像高速公路上的汽车流量一样,不是一成不变的.

疯狂的即时变脸技术(视频)

- 可可 - 36氪
某天,你走在大街上,看到某个人像极了志玲(@林志玲 ). 但光线一转,你才发现那只是一个3D投影,一个数字脸部纹身而已. 来自西班牙的帅哥艺术家Arturo Castro制作了一段名为“脸”的疯狂视频,他将其成为实时变脸,利用了Kyle McDonald的脸部跟踪插件,Jason Saragih的脸部跟踪库(一个可以实现实时面部对齐和跟踪的C/C++ API),以及Kevin Atkinson的图片克隆代码.

[视频]真的猛技术宅 用软驱演奏音乐

- zhipeng - cnBeta.COM
一位网名Silent的波兰技术宅制作了一个小设备,能够让已经退出我们视野的3.5寸软驱演奏音乐,而下面这段视频,就是他用两个软驱“合奏”星球大战中的著名背景音乐《帝国进行曲(Imperial March)》:.

音视频技术发展-数字电视

- - ITeye博客
    在如今数字电视的产业链中,数字电视机顶盒(STB)是一个既简单又复杂的消费类终端产品. 说其简单是因为生产出一个机顶盒是十分简单的,行业准入的成本也不是十分高昂;说其复杂是因为要将机顶盒做得稳定可靠且功能强大,的确是一件十分复杂繁琐的工作,特别是在软件系统方面,由于STB性能的局限性和使用的实时性,它无法像PC那样可以支撑庞大的运行环境与程序,也缺乏完善的开发工具,这对软件开发者而言是一件很具有挑战性的工作.

十亿级视频播放技术优化揭密

- - IT瘾-dev
QCon是由InfoQ主办的全球顶级技术盛会,每年在伦敦、北京、东京、纽约、圣保罗、上海、旧金山召开. 自 2007年 3月份首次举办以来,已经有超万名高级技术人员参加过QCon大会. QCon内容源于实践并面向社区,演讲嘉宾依据热点话题,面向 5年以上工作经验的技术团队负责人、架构师、工程总监、高级开发人员分享技术创新和最佳实践.

爱奇艺短视频打标签技术解析

- - IT瘾-dev
写在前面 最近几年出现了很多以短视频的创作和分发作为主打的手机应用软件,这极大地丰富了文本和图像之外的信息创作和分发方式. 这些短视频应用自从问世以后,便迅速地占领了市场,得到了广大用户的青睐. 目前,短视频正逐渐成为互联网上的一种重要的信息传播方式,由此产生了大量的短视频数据. 为了更好地利用短视频数据,提升短视频的创作和分发效果及效率,需要为短视频打上各种有用的标签,这些标签可以作为短视频所记录的内容的概括和总结.

爱奇艺短视频分类技术解析

- - 机器之心
近年来,短视频领域一直广受关注,且发展迅速. 每天有大量UGC短视频被生产、分发和消费,为生产系统带来了巨大的压力,其中的难点之一就是为每个短视频快速、准确地打上标签. 为了解决人工编辑的时效和积压问题,自动化标签技术成为各大内容领域公司都非常关注的关键课题. 短视频大规模层次分类作为内容理解技术的一个重要方向,为爱奇艺的短视频智能分发业务提供着强力支持,其输出被称为“类型标签”.