本篇文章7758字,读完约19分钟
编者按:由于腾讯拥有微信、qq等社交应用,用户数据是非常重要的资源,也是腾讯安全的关键领域。就连首席执行官马也一直表示,未来的安全是大数据安全。
在2017年腾讯安全技术国际峰会上,腾讯云安全总监周斌介绍了在过去一年左右的时间里,腾讯如何利用大数据的能力更快更好地发现安全威胁,以及如何利用大数据算法发现异常账户。以下是周斌在现场的讲话。《雷锋》的编辑。(公开号码:雷锋。com)在不改变初衷的情况下做出了适当的削减和安排。
周斌:腾讯云安全总监“大数据下的黑色肖像与反欺诈能力建设”
在正式开始之前,我想给你看一张旧照片。
这是一张黑白照片,可能有点模糊。你觉得熟悉吗?这是一张广西丛林中的照片。如你所见,这张照片实际上有两张照片。左边的图片是帐篷,右边的图片是帐篷的内部。
这就是我们在过去几年里通过一些技术手段,包括一些线下合作打击的黑色制作团伙。该团伙在丛林中搭建了一个伪装帐篷,设置了基地战和发电机,还有大约几十个专门从事黑色生产的笔记本,主要是羊毛党,从事验证码的对抗。
据我们统计,目前中国有100多万人从事黑色生产,市场上至少有1000万张身份证在流通。整个黑色产品的产值超过1000亿,大约有数百亿的恶意链接存在于黑色产品手中。
腾讯也就如何面对这种情况做了初步探讨。
我今天的内容可能会分成两部分,一部分是我们所看到的,另一部分是我们在这个团伙背后所做的。另一个是腾讯通过算法和模型对抗的行为。
回首这片山林中的伪装帐篷,这样一个完整的产业链已经突破了最初的认知。他们变成了什么?
他们会在这个帐篷里做什么?做勒索,薅羊毛,做更多的事情,面对o2o,面对互联网公司,面对银行,做很多更有利可图的事情。
为什么会有这样的行动,与今天中国线下黑色生产行业的蓬勃发展有关。根据我们现在总结的数据,以伪装帐篷为例,对国内网站的攻击基本上是一次200元,一天600元,足以击败中国大多数网站。
事实上,这只是开始。他们手中有很多资源,将来会有更多的变化。
根据我们现在看到的统计,2016年每五个小时就会有一个数据泄露的案例,这是由黑色产品所拥有的资源造成的。除了攻击之外,大多数攻击都是拖拽和碰撞图书馆。
在对方获得资源后,它主要针对主流公司。除了刚才提到的攻击,我们可以看看它背后的行动。这是我得到的截图。
我们刚才看到的那伙人是一张黑白照片,但在这里它被一张彩色照片代替了。
猫池在右上角,这个设备现在在华强北有售。我将在左边扩展这些图片,并在左边扩展控制终端。
第一张照片可能对每个人来说都很熟悉。这与手机的公共测试平台非常相似,但实际上并非如此。这是一个手机破解平台,专门用来破解手机短信。第二张和第三张图片是猫池的控制终端,通过一排电脑集中控制我们所有的猫池设备,并连接相应的短信。下面的第一张图片显示了所有此类设备卡的存储系统,最后两张图片也与卡特彼勒池相关。
这是一个完整的产业链,我刚才描述了其中的一个过程。从黑色生产的角度来看,它已经形成了一个完整的分工和高度工业化的链条,我把它分为三个环节。上游、中游和下游。
上游是软件开发的环节。在软件开发环节,有一个高速验证码平台,有手机卡注册和销售渠道,有注册商和相应的微芯片供应商。在中游,有专门的团队提供批量注册、恶意账号等流程,最后可以进行相应的号码分配流程。在下游,所有盈利环节,包括优惠券的获取、新手的任务、增值商品的激增、活动、奖励和其他行为,实际上都在发生变化。这些变化是由于技术的进步,整个行业的进步和对手采用的新思想。
就腾讯而言,我刚才其实和一个同事交流过。在传统对抗的情况下,我们经常用常规的方式来进行。但是今天,传统的规则不能适应所有的场景,所以我们对算法模型做了一些探讨和应用。
算法和模型是机器学习的基础。在安全领域,我们过去在场景应用中遇到过很多漏洞。起初,我们的基础的出发点是用机器学习模型代替传统专家规则的应用。
你可以看到右边的图片,我在右边画了一幅。它有两个部分。下半部分是基于专家模型的应用。传统上,我们使用安全专家来生成定义的规则。我们将规则引入引擎,并进入网络进行比较和拦截。在此基础上,我刚才说过,我们在开始时遇到的第一步是通过机器学习进一步升级这些规则。在这一阶段,我们所做的是由我们的算法工程师按照特征工程的方式过滤过程的特征和由这些专家规则产生的特定规则,然后我们将这些特征引入机器学习引擎以识别和拦截异常。
然而,这个地方建成后,我们遇到了很多坑。最大的问题之一是,因为攻击方法多种多样,他有无限的可能性。事实上,这种基于规则的学习很难涵盖所有的环节。而且,更大的问题是我们缺少自然的应用样本,没有办法学好,这直接导致了整个模型设计的困难。
因此,我们会考虑使用更深入的学习方法。下面,我列出一个我们已经看到的方法。常规方法,例如异常检测、消息识别和最常用的推荐,将在不同的维度上使用不同的算法。例如,异常识别在这里,机器学习更多,监督和非监督的方法将被使用,错误和漏洞将更高。最终的输出仅仅是分类和解释。然而,由于所有的多样性变化,整体效果并不好。垃圾箱检测也是如此,它主要基于监督学习算法。监督学习算法具有较高的准确率,但覆盖率仍然很低。最终的分类结果是多样化的,整体效果不是特别好。最下面一个是我列出的一般参考,它在安全性方面没有太多内容,主要用于推荐场景,主要是监督学习算法。因此,基于这些坑点,我们认为最终解决安全对抗和各种黑产品的手段,不应该依靠简单的算法,而是要解决多维度的框架问题,这需要基于现在腾讯的海量用户。
现在腾讯的社交网络每月大约有8亿个月的活动数据,所以我们需要根据这个庞大的数据集挖掘多维数据和模型来学习。因此,基于这个想法,我们将数据模型抽象成四大块。
第一大块是社交大数据。我们将把社会关系、内容和各种正常的业务请求分类到数据维度中。
第二部分是关于样品和标签,因为我们刚刚谈到了机器学习,所以我们必须有样品和标签。
第三,每个人都会提到机器学习中的一个场景,包括监督学习、非监督学习或半监督学习。在这三个不同的场景中学习,没有一个是一成不变的。换句话说,它们必须是许多种类的组合,所以我们肯定需要这样的标签和样本来概括所有的场景。对于这个样本和标签,我们将把样本和标签放在无监督和有监督的学习中间,同时会有一个算法。
第四块是基于特征,包括功能肖像,批处理帮派和历史黑色数据。最后,根据该模型进行准确预测和主动预警。我在这里提到了一个主要的角色和框架,最后我们从三个角度,即账号、内容和风险管理,登陆这个框架,登陆这三个维度。
首先,我们谈谈账号,这是万恶之源。所有的问题实际上都来自账号,因为如果你不登录账号,你所能做的无非是传统网络安全中的内容,包括漏洞和ddos攻击。一旦你有了一个账号,你就可以获得更多积分。
在主机、终端、商业网络等维度上,有更多可用的空,它们会开发入侵、木马、恶意注册和登录等功能。所有这些都是主要入口。这个模型本身不能识别恶意,因为恶意控制者是多种多样的,他们的目的是不同的,他们没有很强的规律性和统计特性。最后,有必要将整个恶意行为纳入监控系统,形成各种恶意感知和模型样本进行防控。
我们设计了一个基于账户的框架,这是一个批量恶意注册账户的识别模型。核心主要是通过分析完整的社交网络。我们设计了一个称为sybirank的算法,它主要是根据图挖掘来综合的。核心是对用户进行分类,给不同的类别打分,最后输出一个静态种子用户。通过流水中的机器学习,进行自动分类和识别,识别恶意、可疑和温和的用户。
事实上,该模型结合了无监督、有监督和半监督的闭环。整个过程中突出的挑战不是算法本身的设计,而是算法应该如何在海量数据中运行。
我刚才提到qq是唯一的例子,每个月大约有8亿个月的账户,这将给整个算法带来很大的挑战。由于这8亿数据,我们将设计一个大型的图形挖掘系统。在我们按照这个算法设计之后,我们可能会形成一个有数十亿个顶点和数百亿次重复计算的图形。一天有几千亿次。以我们单一的商业场景为例,它可能每天都会出现。由于两个人的社会关系相似,我们的单个场景可能在一天内匹配超过100个。
这也是一个非常大的门槛。正是因为这个原则,这个社会关系链的实体是相互关联和高度依赖的,所以几个传统的分布式系统很难处理,我们需要一个速度更快的系统。因此,我们构建了一种围绕顶点的流水磁盘图计算方法,以构建一个具有高扩展性的系统。目前,我们使用一台服务器大约需要120个小时,并且我们可以运行所有当前的体重关系。为用户完成评分大约需要62小时。
由于这种算法的计算,我们将分析大规模的数据。最后,我们将输出一个结果,并且我们将看到在算法计算之后会看到不同的组。事实上,将会有类似的系统驱动程序,但是在中间会发现许多不同的点。正如你实际看到的,这是基于算法的结果。在这个结果中,您实际上可以看到大多数点是相同的,但是会有不同的组。这些不同的群体是在我们中间可以发现的高度可疑的状态。最后,我们将这些可疑状态放入网络,当我们做快速识别时,我们可以发现许多可疑的恶意行为。
在右边,我列出了两种恶意行为,上面一种与内容有关,下面一种似乎没有错。如果你熟悉黑色商品行业,你可能知道右下方是色情排水系统,它用漂亮女人的头吸引点击。事实上,您自己的帐户有非常严重的问题,但是在传统的规则匹配或行为匹配中没有问题。这只能在市场上通过社会关系和个人用户评分来找到不同的群体。
这是帐户级别的一些操作。在帐户维度之后,我们将进入第二个层次,也就是说,构建第二个层次的模型。第二层模型分为四层,底层是数据层,构建了人像、信用、信息、种子库等基础系统。在算法级别,例如文本识别,boosting算法包含在基本算法库中。在逻辑处理层面,我们可能都知道风险识别和子类分析有不同的维度。最后,我们将在界面层输出不同尺寸的产品。
我们可以介绍这件作品所做的工作。有两个部分,一个是库存,另一个是新的。
让我从股票开始。我们将从三部分做所有的股票数据。业务层实际上是股票数据。第二层做了一项无人监督的研究。无监督的学习主要是通过促进来完成的。我们的丈夫已经成为一个词类词典,然后生成转换证明,以生成小类表。然后,我们使用算法为整个单词生成多组变换矩阵,最后对它们进行排序。目标是判断参数,并最终输入打击策略。在这个过程中没有必要考虑太多的效率,因为毕竟这是对历史股票数据的处理,但是对于实时信息,即新信息,将需要更快的处理逻辑。
对于增量训练,实际上,收集的原则来自于学习股票样本,因为刚才提到,股票只关心准确性,而不太关心效率。股票稍微慢一点没关系,但它会形成大量的基本样本。基于基本样本,我们可以训练新的样本。我们还可以根据股票数据形成一个多维矩阵的新数据,包括一个字典变换矩阵和一个子类别列表,然后进入处理。在这个过程中,我们可以通过降维使文本不断进化,并通过定义整个库的大小和改变时间窗口来更新我们的预测库,从而提高我们自己匹配的效率,最终达到预期的效果。这一过程完成后,目前的情况是,我们对库存处理的准确率约为99.8%,对新加工的准确率约为99.7%,相差约0.1个百分点。
处理完所有内容数据后,下一步是处理风险管理。事实上,在这个过程中,它经历了几代人的策略。在开始时,我们实际上想用逻辑返回来进行这样的相应处理,用逻辑函数来表示属于目标类别的概率,用随机梯度下降法来优化解。主要优点是行业基准模型可以预测目标的概率,高效、易用、易于解释,但这种模型的缺点也非常明显。最大的问题是覆盖率低,对于多特征或缺失特征的场景,该模型的效果不是最好的。
同时,他也有一个问题,对于这种非线性特征,在超级空之间进行划分的能力是不够的,更大的问题在于供给,这直接导致这样一个随机建立的模型不是最好的解决方案。
接下来,我们将考虑到,由于存在多种数据源,每个数据源的数据特征不同,属性不统一,离散和连续实际上并存,整个查询是不一致和非线性分布的,并且当特征维数较高时,单独使用它的性能较差,难以覆盖人工规则,因此我们需要使用随机分离模型进行训练。整个模型从训练子集中采样,也从每个特征集中采样。最后建立决策树进行自动选择,最后形成分裂二叉树,通过投票进行分类。在这个分类被迭代之后,检测性能可以被提高,但是它仍然没有处于完美的状态。
我们有更高的要求,因为我们对精确度有更高的要求。鉴于错误,当我们学习时,由于更好的准确性,标签的数量也在增加。这时,我们需要采用一种新的方法,所以我们有第三阶段,这是基于残差。
基于残差的思想,我们建立了一个弱学习器,它集成了一个boosting分析器,通过迭代训练进行学习。其优点是在大数据集上具有最好的分类性能,适用于非线性和多特征类型。这完成了吗?事实上,它最终还是不完整的。由于腾讯社交网络业务的多样化以及腾讯云上客户应用场景的多样化,当我们需要在每个场景中进行定制建模时,人工成本会越来越高。最后,我们的解决思路是用神经网络来设计模型,最后,基于迁移学习,进行场迁移或目标场的特征迁移。其优点是一套方案可以在很多地方重复使用,适用于标签数据较少的情况。
最后,我们将在这个模型上输出一个框架。这个框架是我们目前在风险控制领域的基础设施,底层是我们的人像数据层,包括人像数据的形成、设备指纹数据和基于我刚才提到的几种算法的知识地图。在云数据上,我们保留了终端数据、身份数据和恶意内容的数据。在算法层,诸如迁移学习和提升等算法包含在基本算法层中,基本算法层主要基于内容,例如传统的图像识别和语音识别算法,并且可能有第三个块,即最右侧的灰色部分。灰色部分刚才没有突出显示,因为灰色部分属于泛安全部分。因为左边和右边,事实上,蓝色和绿色的部分更与安全有关,而灰色的部分是为了我们在图形计算中更好地识别相似的组。
例如,像这里一样,灰色的第三段,像LookLike算法,一般用在广告系统中,但是当用在安全领域时,它仍然可以在相似性之间扩展,这形成了一个算法层,最后我们将形成一个服务层模型,这样它就可以应用到金融、内容和市场领域,最后我们形成这样一个统一的框架。
该框架的数据可用于电子商务、直播、移动、o2o等腾讯以外的行业。
我在这里画了一页,那就是,战斗刚刚开始。虽然我们用了大量的对质,事实上,我们看的是准确性和覆盖面,但是效果并不坏,但是对手在不断进化,不是说他们处于静止状态。事实上,早上你已经看到了这样一个验证码平台。今天,我将把这个平台更进一步。
这是一个基于神经网络的黑色验证码破解平台。该平台的开发者是一名医生,主要从事中国验证码的识别。这个平台基于一种流行的深度学习模式,叫做caffe。它建立在这个模型上,需要大约50台服务器来进行深入的培训。在这个平台上,最终积累了大约10000个字符样本和大约5000万个学习样本,破解了中国市场上所有的验证码。目前,根据该平台统计,2017年上半年,即前6个月,该平台破解验证码259亿次,破解成功率超过95%。也就是说,现在中国市场上所有的验证码都可以破解,不管你怎么拼。
如你所见,在我的图片右侧有一个用户,即用户id。这是我们的测试情况。用户标识为3532,识别量为36万,准确率为96.95%。它是由这个平台构建的。该框架是当你进来时分发验证码,然后识别数字和字母,最后进行分布式学习,通过识别优化结果,然后输出结果。
但这不是这个平台的真相。这个平台更深层次的真相是,众所周知,所有的验证码都是图片,所以这个平台也在这个系统之前建立了一个ocr模块来完成整个识别。你为什么要这么做?目标是简化。为了防止图像被二次预处理,我先设置了一个ocr模块,对图像预处理一次,最后进入平台。换句话说,你所要做的就是给他ocr。我们在进步,我们的对手在进步,对抗越来越激烈。这个领域的学习永无止境。我们已经做了初步的研究,但是战斗还会继续。我也希望以后有机会继续和你进行一些相应的交流和沟通。今天的分享到此结束。
以上是演讲的全文。下面是问答环节。
雷锋。早上,我说有一场验证码大战。我想知道如何计算验证码的准确性。如果你不认为他是个坏人,你会认为他是个好人。你怎么知道他是个坏人?
周斌:嗯,这个通过率实际上很容易判断,因为你可以调两个cgi。一般来说,当你调整一个cgi时,会有一个验证码,并且会有一个反馈结果,也就是说,下一次跳转到哪个页面,你只需要看看跳转到正确或错误页面的次数。
雷锋。我知道验证码的识别成功率。如果你成功了,你可以跳过它,因为早上有一个问答环节,这意味着验证码将识别有多少人会破解验证码。打破它之后,就相当于我对抗他的攻击。战斗的成功率是怎么来的?
周斌:换句话说,你刚才实际问的问题是泄漏率。你怎么知道他错过了?这与我刚才所说的有些关系。我刚才说的是,当它基于数据被处理时,它都是业务链上的一个过程。因为验证码不是单个模块,所以验证码必须是业务流程中的一个模块。例如,如果您在登录过程中出现,您必须在登录时输入验证码,或者在某个业务管理过程中出现。首先,在前一阶段就知道是否有验证码。其次,在第二阶段,有另一个模型来识别恶意。如果减去这两个阶段,您将知道下一阶段的验证码是恶意的,这实际上是验证码通过率中缺失的一段。还有一个更复杂的问题,你必须排除手动着陆过程。我刚才实际上改变了架构。我不知道你是否注意到了。我今天没提到设备指纹。我们将根据设备指纹判断你今天拿走的手机或终端设备是通过黑猫池的设备还是终端批量出现的。这是另一种算法。我们需要去掉真正的部分。例如,我们已经在登录过程中过来了。只需减去两者之差。
雷锋。事实上,后一个环节相当于用一些技术手段来预测。不管你是不是一个普通用户,事实上,会有一定的准确性损失的问题。你能说泄漏率没有100%精确的算法吗?
周斌:不,最终会通过多个链接进行验证,因为正如我所说,这次攻击实际上和今天的攻击是一样的,它也是在多个链接下进行的。最后,作为一个安全防御方,它实际上是建立在多条链路上的,而多条链路上的数据将最终判断这种行为是否可能。事实上,大家都很清楚,在长城前建长城是不可行的,基本上是不可靠的。
雷锋。在那个架构图中,你提到有一个人工智能。我好奇的是人工智能的功能,人工智能和传统搜索引擎有什么区别?应用在人工智能学习中的作用是什么?谢谢你
周斌:这个问题实际上是一个非常大的话题,因为知识地图已经是一个非常大的话题了。我们现在讨论的智能建筑的知识地图主要应用在安全领域。因为这种搜索应用不同于安全应用,所以安全应用的主要目标来自于发现异常的行为。就像我刚才提到的大局一样,我去找了一些有异常收敛的人。我们现在做的知识地图主要是基于我们所有人,因为你可能知道,腾讯的产品线很长。我们不仅有社会产品,也有各种维度的产品。我们将把各种产品的数据填入知识地图,最后对用户的风险进行分类。这种方式与搜索引擎上的用法不同,它主要用于判断用户的异常风险使用。
雷锋原创文章。严禁擅自转载。详情请参考转载说明。
标题:美女头像这么多,他们用大数据告诉你哪个是骗子
地址:http://www.hcsbodzyz.com/hcxw/10039.html