本篇文章4483字,读完约11分钟

雷科技评论:2017年cvpr,一个计算机视觉的事件,已经结束了,雷科技评论带来的许多现场演讲和收集的论文报告也给读者一些直观的感受。

与2017年cvpr收录的783篇论文相比,尽管雷最近报道的获奖论文和行业内大公司的论文具有一定的特色和代表性,但论文的故事仍是沧海一粟。其余收录的论文仍有很大的研究价值,在生物医学图像、三维视觉、运动跟踪、场景理解和视频分析等方面也有许多新的研究成果。

CVPR 2017精彩论文解读:显著降低模型训练成本的主动增量学习 | 分享总结

为此,我们继续邀请怡园智能的刘凯博士为我们翻译了许多关于生物医学图像的论文,并继续开展了前几篇论文中最精彩的现场讲座活动,先后为大家翻译了四篇不同的论文。

CVPR 2017精彩论文解读:显著降低模型训练成本的主动增量学习 | 分享总结

刘凯博士是怡园智能的总裁和联合创始人。他拥有香港浸会大学博士学位。他曾是联想(香港)的研究员和腾讯的高级工程师。半个月前,怡园智能的团队刚刚从阿里举行的天池爱医大赛的2887支参赛队伍中脱颖而出,以优异的成绩获得第二名。

CVPR 2017精彩论文解读:显著降低模型训练成本的主动增量学习 | 分享总结

在8月1日的现场直播分享中,刘凯博士解释道:“为生物群落微调自愿神经网络?医学影像分析:主动和渐进??本文主要解决深度学习中的一个重要问题:如何使用尽可能少的标记数据来训练一个具有潜在效果的分类器。以下是当天共享内容的摘要。

CVPR 2017精彩论文解读:显著降低模型训练成本的主动增量学习 | 分享总结

刘凯博士:大家好,我是深圳怡园智能科技有限公司的首席科学家刘凯。今天,我想介绍一篇关于cvpr 2017中医学图像处理的有趣文章,文章采用了主动学习和增量学习的方法。

CVPR 2017精彩论文解读:显著降低模型训练成本的主动增量学习 | 分享总结

今天分享的主要内容是首先介绍这篇文章的动机,也就是他为什么要做这项工作;然后介绍他是如何做到的,以及在两个数据集上的应用;最后,做一个简短的总结,谈谈它的特点和需要改进的地方。

CVPR 2017精彩论文解读:显著降低模型训练成本的主动增量学习 | 分享总结

事实上,在机器学习中,特别是在深度学习中,有一个非常重要的前提,那就是我们需要有足够的标注数据。然而,这类标注数据通常需要人工标注,有时标注成本相当高,尤其是在医学图像处理中。因为医学图像处理需要一些领域知识,也就是说,医生对这些疾病很熟悉,所以我们大多数人很难对它们进行标记。不像自然图像上的图片,比如imagenet,有一些人脸、场景和物体,我们每个人都可以去标记它们,这有点便宜。医学图像的成本会更高。例如,在我右边的例子中,医学图像的两种常用方法是x光和计算机断层扫描。事实上,x光通常是一个人照的,费用大约是20到30元;Ct是一个横截面。拍照后,一个人的照片大约有数百张,所以做标记的成本会更高,时间会更长,尤其是ct,因为医生应该重视数百张照片。

CVPR 2017精彩论文解读:显著降低模型训练成本的主动增量学习 | 分享总结

例如,例如,标准是1000张。这些数据对于深入学习来说并不算太大。x光需要20000到30000元,需要3到4天才能做好标记;ct的成本会更长,时间成本也是一个非常重要的问题。那么,我们怎样才能解决医学,尤其是医学图像的深度学习问题呢?然后我们应该用尽可能少的标记数据训练一个有前途的分类器,也就是说,一个更好的分类器。

CVPR 2017精彩论文解读:显著降低模型训练成本的主动增量学习 | 分享总结

然后我们必须考虑我们需要多少训练数据来训练一个有前途的分类器。这里有一个例子,比如左边的图。该模型的性能随着数据的增加而线性增加,这意味着数据越多,其性能越高。然而,在实践中,这种情况很少发生。一般来说,当数据量达到一定水平时,其性能将达到瓶颈,并且不会随着训练数据的增加而增加。但是有时我们想把这个临界点提前一点,这样当数据量较少时就会发生。例如,右图中的红色虚线用较小的数据实现了相同的性能。我们的文章介绍了主动学习的方法,发现一个小数据集可以达到和大数据集一样的效果。

CVPR 2017精彩论文解读:显著降低模型训练成本的主动增量学习 | 分享总结

如何通过主动学习来减少右边图片中的临界点?就是主动学习那些困难的、容易出错的和信息量大的样本,然后标记这些样本。因为这些很难区分,所以可以训练一些容易区分的样本,并且需要大量的数据来学习模型。所以让我们先学习这些困难的事情。

CVPR 2017精彩论文解读:显著降低模型训练成本的主动增量学习 | 分享总结

如何定义这个“困难”?它的意思是“困难”、“容易出错”和“信息量大”,实际上意思是一样的。这种“大量信息”由两个指标来衡量:大熵和高多样性。熵是信息学中的熵,多样性就是多样性。这种数据的多样性意味着模型所学知识具有更高的泛化能力。例如,对于二进制分类问题,如果预测值接近0.5,这意味着熵相对较高,因为模型很难区分它是哪种类型,所以给它的概率是0.5。

CVPR 2017精彩论文解读:显著降低模型训练成本的主动增量学习 | 分享总结

使用主动学习有五个步骤来找到那些难学的样本

首先,在大量自然图像中训练所有未标记图像数据的网络,众所周知,现在有许多常用的网络,所以我们可以从原始网络如lenet、alexnet、googlenet、vgg、resnet中测试它们,并得到预测值。然后挑选出最难和信息最丰富的样本进行标记

CVPR 2017精彩论文解读:显著降低模型训练成本的主动增量学习 | 分享总结

使用这些刚刚标记的样本来训练深度学习网络并获得网络n

用n遍历剩余的未标记图像,得到预测值。挑选最难的,手工标记

将刚刚标记的样本与已经标记的样本(即整个注释集)放在一起,继续训练这个网络

重复步骤3至4,直到当前分类器能够很好地对所选的困难图像进行分类。

刚才的文字解释可能不太直观。让我们用图片来看看它。从左到右看,这张图片起初是灰色的,这意味着它还没有被标记,然后使用一个预先训练好的模型来预测它又是哪个类。这样,每一个数据都有一个概率,我们可以根据这个概率选择是否是难以区分的数据,然后我们得到中间的数字,上面的段落是困难的,然后我们标记出来。然后使用连续微调cnn,也就是说,对原始模型再次进行微调,因为有了一些注释数据,您可以继续微调。经过微调后,模型对未标记的数据有一个预测值,然后根据这些预测值和哪些是困难目标对它们进行标记。然后,将这些标记的数据与之前标记的数据结合起来,再进行一次连续的微调,就会得到cnn2。然后,通过类比,直到所有的数据都被标记,或者当数据没有被标记时,模型已经非常有效,因为所有困难的数据都被标记了。

CVPR 2017精彩论文解读:显著降低模型训练成本的主动增量学习 | 分享总结

刚才我们提到了两个指标来判断一个数据是否无法区分。熵是直观的,当预测结果约为0.5时,认为很难区分;然而,多样性的价值没有得到很好的描述,因此该指数是通过数据增强的方式设计的,也就是说,它的一系列变体是根据一幅图像设计的。这些变形可以翻转、旋转、平移等。一个变成几个甚至十几个,这增加了它的多样性。然后预测所有这些变形的分类结果。如果结果不一致,就意味着这张图像的多样性很强,所以这张图像很难区分,是一个硬样本;;相反,得分更好,所以不要做它的增强。那么,所有增强数据的预测值应该是一致的,因为它们代表相同的东西,但是也有一些例外,如果它是我刚才所说的简单的数据增强的话。

CVPR 2017精彩论文解读:显著降低模型训练成本的主动增量学习 | 分享总结

这将导致一个问题。原始图像,如左边的小猫,经过平移、旋转、缩放等操作后得到九幅图片,每幅图片都是它的变形。然后我们用美国有线电视新闻网找到这九张照片中的猫的概率,我们可以看到上面三张照片的概率相对较低,也就是说,我们不能判断它是不是猫,我们可以直观地看它,像老鼠、狗和兔子。最初,这是一个简单的例子。很容易识别出这是一只猫,但是这种增强使模型变得不确定。这种情况需要避免。

CVPR 2017精彩论文解读:显著降低模型训练成本的主动增量学习 | 分享总结

因此,在这个时候进行多数选择是少数服从多数的一种方式,因为大多数人认识到这是一只猫。这是看它的倾向性。使用预测值为0.9的六个数据,上述预测值为0.1的三个数据将不被视为增强结果。这样,网络预测的总方向就统一了。

CVPR 2017精彩论文解读:显著降低模型训练成本的主动增量学习 | 分享总结

除了主动学习之外,本文的创新之处在于顺序学习而不是批量学习。一开始它不会很好地工作,因为根本没有标记的数据。它是通过将从imagenet数据库中训练出来的模型直接应用到医学应用中来预测的,效果应该不是很好。然后,随着标注数据的增加,主动学习的效果会逐渐显现出来。这里,每一次微调都是基于当前模型的进一步微调,而不是从最初的预训练模型进行微调,因此它对以前的模型参数有一点记忆,并且是连续学习的。这种思维方式类似于普通的学术顺序学习和在线学习。但其缺点是微调的参数没有得到很好的控制,存在一些超参数,如学习率等,需要随着模型的变化而变化,并且在开始时容易陷入局部极小值,因为开始时没有太多的标注数据,模型可能会学习到不好的结果。那么这是一个开放的问题,可以从几个方面解决,但是本文中没有提到解决方案。

CVPR 2017精彩论文解读:显著降低模型训练成本的主动增量学习 | 分享总结

这种方法通常用在机器学习中,也就是说,找到那些困难的数据来做后续的微调。这里它主要用于医学图像,然后用两个例子来检验结果。一是结肠镜检查的视频帧分类,看是否有病变、肿瘤等。结论是,只有5%的样本用于获得最佳结果,因为事实上,因为它们是连续的视频帧,所以它们通常是相似的,并且前后的帧是相似的,所以没有必要标记每一帧。另一个例子类似。对于肺栓塞的检测,检测+分类,只有1000个样本才能达到与2200个随机样本相同的效果。

CVPR 2017精彩论文解读:显著降低模型训练成本的主动增量学习 | 分享总结

我也对这位作者略知一二。他是亚利桑那州立大学的博士生,现在在美国著名的私立医院梅奥医院实习。他与需要标准的医生打交道。这相当于从实际需求中得出的一个研究课题。

CVPR 2017精彩论文解读:显著降低模型训练成本的主动增量学习 | 分享总结

总而言之,这篇文章有几个好的亮点。

就标记数据而言,从一个完全未标记的数据集开始,不需要在开始时标记数据,最后相对少量的数据就能获得好的结果;

然后,从连续微调的方式,而不是再培训;

在选择样本时,我们通过候选样本的一致性来选择哪些样本值得标注;

自动噪声处理,即我刚才举的猫的例子,数据增强带来的噪声被服从多数的少数去除;

在每个候选集中只选择少量的块来计算熵和kl距离,KL距离是描述多样性的指标,因此减少了计算量。传统的深度学习需要在训练前进行数据增强,并且每个样本是相等的;本文中的一些数据增强不仅没有起到很好的作用,反而带来了噪声,因此需要进行一些处理;此外,有些数据根本不需要增强,从而降低了噪声并节省了计算。

CVPR 2017精彩论文解读:显著降低模型训练成本的主动增量学习 | 分享总结

事实上,这篇文章比较简单,但是思路很好,因为提出的问题在现实中非常普遍。有一些缺点:

sequentialfine-tune类似于当机器学习提出增量学习和在线学习时遇到的问题,即如何实现与批量学习相同的效果。

根据我们在公司和过去的研究经验,有一些想法可以在有标记的数据中借鉴。例如,Hard Nigel Mining有一个想法,因为在医学图像和其他数据中真正生病的数据相对较少,所以该模型的分类结果往往是他没有生病,问题是该模型有偏见。此时,硬挖掘方法被用来将错误的数据发送回模型并重新训练它们。

CVPR 2017精彩论文解读:显著降低模型训练成本的主动增量学习 | 分享总结

这项工作在其他方面也可以推广,但推广的例子需要研究,这里只使用医学的例子。

这可能就是我今天要分享的。事实上,这里有一个更详细的解释,所以最好再读一遍论文,这是最详细的。

问:为什么一开始主动学习并不比随机选择好?

事实上,不一定。有时候无法保证谁是好人。开始时,主动学习没有标记数据,这意味着它不知道此时哪些数据是困难的,也没有在这个医学数据集上受过训练。此时,就像随机选择一样,原始imagenet映像的学习效果正在迁移。随机选择可以直接选择硬结果,所以它可能比最初的主动选择更好,但是它并不总是适合随机选择。我不能保证哪个更好。

CVPR 2017精彩论文解读:显著降低模型训练成本的主动增量学习 | 分享总结

(结束)

雷锋。(公开号码:雷锋。人工智能科技评论。随后阅读和分享的论文系列也将进行总结,但我们仍然希望每个人都能参与我们的直播和提问。

相关文章:

中山大学金牌团队分享获奖经验:如何打形象比赛

雷锋原创文章。严禁擅自转载。详情请参考转载说明。

标题:CVPR 2017精彩论文解读:显著降低模型训练成本的主动增量学习 | 分享总结

地址:http://www.hcsbodzyz.com/hcxw/11030.html