本篇文章3449字,读完约9分钟

雷锋。(公开号码:雷锋。com)出版社:本文摘自林天威主编的《智虎专栏简历及其他》。

最近,iccv 2017宣布了论文的录用,我像往常一样浏览了一下论文列表,找到了一些有趣的文章。"理解视频中的人类行为需要什么动作?"在我看来,一篇文章应该是最有趣的。本文没有提出或改进任何方法,而是通过各种小实验,详细讨论和思考了视频行为理解的各种数据库和方法。这些观点和结论中的许多对研究视频行为理解的研究者有启发。在这篇笔记中,我只是做了一些记录,供自己和大家参考。如果你感兴趣,建议你阅读原文。从论文写作的角度来看,这是一篇非常好的论文。

【ICCV 2017论文笔记】我们应当如何理解视频中的人类行为?

背景介绍本文主要讨论了视频行为理解中的两个问题:动作识别和时间动作检测。这两个领域的具体介绍和相关工作可以在我以前的文章[zhuanlan.zhihu/p/26460437]和[转兰.志乎/p/26603387]中找到。简而言之,行为分类是对分割的短视频(通常只包含一个人的动作)进行分类,而时间行为检测主要针对长的未分割视频。除了对视频中人类行为的类型进行分类之外,还需要定位动作的时间边界。在这两个方向上,本文更注重对行为分类的讨论。

【ICCV 2017论文笔记】我们应当如何理解视频中的人类行为?

各领域深度学习(或数据驱动方法)的发展与各领域数据库的发展密不可分,视频行为理解领域也是如此。从最早的非常简单的kth数据库,到ucf101、thumos、hmdb-51等包含各种运动和简单日常行为的数据库,再到activitynet、shalit等包含更多类别和更多视频的数据库,在过去两年中,数据库的发展也逐步推动了视频行为理解方法的发展。本文主要分析哑谜数据库,可能是因为这个数据库是作者提出的。事实上,在过去的两年里,似乎很少有相关论文在字谜数据库上进行过实验。

【ICCV 2017论文笔记】我们应当如何理解视频中的人类行为?

本文的结构主要以几个问题为基础,通过对问题的分析逐步展开讨论。每个大问题也包含一些小问题。本文的主要问题/章节如下。

应该问什么问题?

现有的学习方法是什么?

我们下一步应该看哪里?

这些问题可以说是从对现有数据库和任务本身的分析,到对算法的分析,最后到对未来发展方向的展望。以下是每个部分的简要介绍。

应该问什么问题?这一部分讨论了视频行为理解的任务,主要出发点是研究人类如何在视频中理解人类行为。它主要包括两个子问题。

(1)什么是正确的活动类别?

对于图像中的物体来说,它们的语义类别通常是非常清楚的,并且通常没有混淆。然而,由动词定义的人类行为的数量要少得多,并且经常存在一些歧义。例如,“跑”和“跳”的动作包含相对清晰的定义,而“拿”和“拿”的动作要模糊得多,需要与名词结合以明确它们的含义,如“拿衣服”和“吃药”。因此,动词或动词和名词的组合构成了一个动作最基本的定义。

【ICCV 2017论文笔记】我们应当如何理解视频中的人类行为?

在这篇论文中,一些志愿者被聚集起来做一些关于哑谜数据集的人类学习实验。实验结果表明,人类对动词的理解比名词更混乱。进一步的实验还表明,单个动词不能足够清楚地描述动作。因此,动词和名词的组合在描述动作时更清晰。

【ICCV 2017论文笔记】我们应当如何理解视频中的人类行为?

(2)活动有时间范围吗?

对于图像中的目标,它们的边界通常非常清晰,相应的学习任务包括目标检测和目标分割。然而,人类行为的时间界限往往不够清晰。

本文还进行了一些人类学习实验,实验的内容是让人类标准报告者重新标定视频中的行为边界,并与数据库的真实值进行比较。实验主要有以下观察结果:

【ICCV 2017论文笔记】我们应当如何理解视频中的人类行为?

在字谜游戏中,人的平均重叠率(iou)只能达到72.5%,而在多图数据集上,它只能达到58.7%。可以看出,即使对人类来说,视频中行为的时间界限也相当模糊。

【ICCV 2017论文笔记】我们应当如何理解视频中的人类行为?

动作的结束时间点比开始时间点更混乱

时间越长,行为的界限对人类来说就越不容易混淆。这表明需要更仔细地标记较短的动作

时间序列边界的模糊性广泛存在于各种行为中

然后,关于时间界限,可以进一步问以下问题:

我们能评估时间定位吗?

也就是说,当时间动作边界模糊时,我们能评估时间动作位置(时间动作检测)吗?省略实验,本文的结论是:虽然时间边界是模糊的,但是当前的数据集允许我们理解、学习和评估动作的时间边界。

【ICCV 2017论文笔记】我们应当如何理解视频中的人类行为?

我们应该评估时间定位吗?

这是本部分的最后一个问题,即时间运动检测/定位是否值得做。在本文中,我们测量了一个假设的完美行为分类器,并在行为检测任务上进行了实验,在哑谜数据集上达到了56.9%,这大约是该数据集上现有技术的五倍。作者的这一部分很不清楚。在这里,作者应该用一定的方法生成时间序列动作的建议,然后用一个完美的分类器对这些建议进行分类,从而达到检测的效果。

【ICCV 2017论文笔记】我们应当如何理解视频中的人类行为?

基于此,作者认为对于短视频,关注行为分类任务比行为检测任务能带来更高的检测准确率。因此,本文的后半部分主要讨论行为分类的任务。这里注意作者的观点,即在“短视频”的情况下(这里使用的是哑谜数据集),通过提高分类器精度来提高检测精度更容易。但我认为这只是这个数据集的情况。对于其他一些数据集,如activitynet,分类精度相当高(约91%)。此时,与继续提高分类器的精度相比,提高时序动作边界的定位质量可以带来更多的检测精度的提高。

【ICCV 2017论文笔记】我们应当如何理解视频中的人类行为?

现有的学习方法是什么?这一部分主要讨论现有模型在学习行为分类过程中所学到的东西。这一部分采用了目前主流的几种行为分类算法,并主要对哑谜数据集进行了实验分析。

【ICCV 2017论文笔记】我们应当如何理解视频中的人类行为?

(1)分析正确和错误的检测

本文首先给出了一个例子,即两流方法在沙里数据集上的测试结果,第一个行为是正确检测,下面的例子是不同行为的错误检测。

从这幅图中,我们可以分析模型的缺陷如下

模型需要学会区分相似的行为类型。具体讨论见(2)

该模型需要发展理解时间序列的能力,具体讨论见(3)

这个模型需要理解人类的存在。具体讨论见(4)

该图显示了不同算法的预测结果分析。可以看出动词和名词之间有明显的混淆。

该图显示了不同程度的混淆对准确性的影响。这里的复杂性,如动词复杂性,是指不同名词与同一动词的组合数。数字越大,混乱就越严重。一般来说,混淆程度越高,准确度越低。

【ICCV 2017论文笔记】我们应当如何理解视频中的人类行为?

(2)培训数据

这部分主要分析训练数据和动作类别的影响。在训练模型时,使用更多的数据通常可以得到更好的结果,但是具体来说,如何增加数据可以有效地提高结果?本节分别用大量样本和少量样本分析行动类别

【ICCV 2017论文笔记】我们应当如何理解视频中的人类行为?

具有小样本数量的动作类别

作者发现,对于大多数类型的动作,它可以从增加训练数据的数量中受益,甚至对于其他类型的样本也是如此

如果数据集中各种动作的样本数限制在100个,作者发现动作越相似的动作类别的准确率下降越多。这一观察有一个重要的启示,即如果不考虑行为的相似性,平衡样本的数量可能是无用的。

【ICCV 2017论文笔记】我们应当如何理解视频中的人类行为?

样本数量大的行动类别

有大量样本的动作可能更难学,因为有大量样本的话,他们班级中姿势的多样性会更大。此外,有更多的动作与它们共享名词(也就是说,有相同的交互对象,我认为这可能是数据集的特征),这使得它更容易被混淆

【ICCV 2017论文笔记】我们应当如何理解视频中的人类行为?

作者发现现在很多方法的准确率都有所提高,这通常被认为是在样本数量少的动作类中做得更好,而不是在样本数量多的动作类中做得更好。也许这是一个用大量样本细分动作的好方法

【ICCV 2017论文笔记】我们应当如何理解视频中的人类行为?

(3)时间推理

这一部分主要讨论时间序列中的行为理解。

从图中可以看出,在分类任务中,目前的方法可以更好地处理时间较长的动作,而时间较短的动作由于时间序列信息较少而更加困难。此外,作者认为结合时间序列的预测结果是一个非平凡的问题,即一个有意义的问题。事实上,今年的大量工作是通过对时间序列结果进行编码来提高分类精度。

【ICCV 2017论文笔记】我们应当如何理解视频中的人类行为?

(4)基于人的推理

这部分作者主要有几点看法/结论

基于人类的理解将有助于提高当前算法的准确性

人体姿势在人类行为识别中起着重要的作用

我们下一步应该看哪里?最后,作者对可以改进的方向进行了分析。主要的方法是提供一些额外的信息,并观察有多少额外的信息可以改进模型。主要包括以下几种。

【ICCV 2017论文笔记】我们应当如何理解视频中的人类行为?

名词,即已知的交互对象

动词,即已知的动作类型

意图,即聚集行为,以及几个类似的行为作为一个意图可以被认为是一个大的范畴

时间,对于每一帧视频,给出了从动作开始到结束的时间序列距离

手势:将所有的姿势分成500个类别,并提供手势类别信息

实验结果主要给模型应该关注的发展方向一些启示。

在进行视频行为分析的研究工作时,我们经常忽略一些基本信息,而集中精力于模型参数的调整。读完这篇文章,我最大的感受是,在解决一个具体的问题时,仔细思考和分析问题是非常重要的,这可以使我的设计方法更有针对性和效率。与原文相比,上面的比较非常简短。如果你感兴趣,强烈建议阅读原文。

【ICCV 2017论文笔记】我们应当如何理解视频中的人类行为?

雷锋的特别贡献。严禁擅自转载。详情请参考转载说明。

标题:【ICCV 2017论文笔记】我们应当如何理解视频中的人类行为?

地址:http://www.hcsbodzyz.com/hcxw/7284.html