随着企业开始使用深度学习(dl)程序来使用他们的数据,他们必须保护这些数据,而数字双胞胎是成功的关键。
在当今世界,数据为王。无论是亚马逊、苹果、脸书、谷歌、沃尔玛还是网飞,世界上有价值的公司都有一个共同点:数据是他们的宝贵资产。所有这些公司都使用深度学习(dl)来使用这些数据。
不管你做什么生意,数据都是你的资产。您需要通过执行自己的dl来保护这些资产。深度学习的成功因素是拥有足够的正确数据。这就是数字双胞胎的起源。
数字双胞胎是实际物理过程、系统或设备的数字拷贝。简而言之,数字结对就是在虚拟世界中重现真实世界。因此,数字结对可能是深度学习项目成功的关键,尤其是那些涉及危险、昂贵或耗时过程的项目。
希望深入学习
到目前为止,包括半导体制造在内的几乎所有行业都已经意识到了dl创造战略优势的潜力。深度学习使用神经网络来执行高级模式匹配。深度学习已被应用于各种领域,如面部和语音识别、医学图像分析、生物信息学和材料检验。
在半导体制造中,深度学习已经被应用到产品缺陷分类和其他领域。在这个充满希望的新竞争环境中,大多数公司都在争先恐后地获取优势。
随着公司开始探索深度学习以及如何帮助他们,许多公司发现了两点:首先,获得深度学习原型很容易;其次,从“好的原型”到“生产质量”的结果是非常困难的。
如今,随着所有深度学习平台、工具和工具包从低成本到免费,与传统的应用程序开发相比,深度学习应用程序的初始开发非常快速且相对容易。然而,产品化的深度学习应用程序并不比产品化的传统应用程序更容易,甚至更难。
原因是数据。不提供产品质量结果的深度学习应用程序和完全改变您解决特定问题的方式的深度学习应用程序之间通常有足够的数据和足够的正确类型的数据。
深度学习中的数据差距
深度学习基于模式匹配,模式匹配是通过向神经网络呈现代表要匹配的目标的数据来“编程”的。大量数据训练网络识别目标(并知道它何时不是目标)。
深度学习具有强大的功能,可以快速生成原型并提供概念证明。但是深度学习的真正优势不是发展的速度。这是一个事实,它释放了数据的力量去做其他任何方式都做不到的事情。
任何深度学习应用程序的成功都取决于培训中使用的数据集的深度和广度。如果训练数据集太小、太窄或太“正常”,深度学习方法不会比标准技术做得更好。事实上,情况可能会更糟。重要的是用足够的数据来训练网络,以表示所有重要的状态或演示数据,以便网络能够学会掌握当前问题的正确性质。
对于某些领域(如自动驾驶或半导体制造),困难在于(幸运的是)一些异常情况很少发生。然而,如果你想让深度学习应用程序识别出在车前跑来跑去的孩子(或致命的面具错误),你必须使用大量的这些情况来训练网络,但实际上在现实世界中没有多少数据。数字配对是产生足够多异常数据的唯一方法,以正确训练网络识别这些情况。
上图显示了标准偏差的正态分布曲线。在半导体制造中,像驾驶一样,“异常”事件非常罕见,但必须尽可能多地训练神经网络,因为最糟糕的事件将导致芯片故障。总体平均效果不够好。
数字结对缩小了差距
数字结对,即实际过程、系统和设备的虚拟表示,是创建正确数量和类型的数据以成功训练深度学习网络的关键工具。
使用数字双胞胎创建dl训练数据有几个原因:
您的数据可能属于您的客户,因此您不能将其用于深度学习培训。
您可能需要投入所有资源来创建深入学习客户项目所需的数据。
您已经开发了一个深度学习应用程序,但是您发现您需要特定的数据来调整和训练您的神经网络,以达到所需的精度,但是使用工厂的资源创建数据的成本太高了。
你知道你不会发现足够的异常数据来正确地训练深层学习网络。最后一种情况几乎是普遍的。
理想情况下,为了保持对数据的完全控制,您需要三个数字双生子:在生产过程中位于您的过程/设备之前的数字双生子,为模拟您自己的过程提供输入数据;您自己的工艺/设备的数字配对;以及在生产过程中跟随您的过程/设备的数字双胞胎,以便您可以将输出馈送到下游进行验证。
在2019年的spie掩模技术会议上,d2s提交了一篇论文,展示了通过深度学习技术创建的两个数字孪晶,即扫描电子显微镜(sem)数字孪晶和曲线反射光刻(ilt)数字孪晶(图2显示了sem数字孪晶的输出)。尽管数字双生子的输出通常不足以制造,但这些数字双生子已经被用于深度学习神经网络的训练和验证。重要的是,这些数字双胞胎是通过深度学习而不是模拟产生的。
这是一个使用深度学习作为工具来生成其他dl需要的数据的例子,显示了投资于深度学习的复合优势。
上图显示了由扫描电镜数字孪生产生的掩模扫描电镜图像和真实扫描电镜图像的两个例子。它还显示了同一位置的水平切割线上的图像强度。不仅图像看起来非常相似,而且边缘的信号响应也很相似。
深度学习成功的路线图
所有这些听起来好像有很多工作要做。你为什么不用咨询公司为你做深度学习呢?因为,记住,数据是国王!保护数据并自己进行深入学习。幸运的是,我们可以遵循既定的成功之路。
首先,你需要确定对深度学习有影响的项目。你真的需要仔细选择。深度学习是模式匹配,所以你需要选择属于这个领域的内容。基于图像的应用,例如缺陷分类,是相对匹配的。工厂中的所有设备都会产生大量的运行数据,除非有问题,否则很少引用这些数据。
您不仅可以将这些有价值的数据用作事后诊断工具,还可以持续监控整个工厂的数据,并训练深度学习应用程序在问题出现之前标记模式,以便您可以在问题产生影响之前识别和纠正问题,并节省停机时间。
例如,mycronic在2020 SpieAdvanced Photo会议上的ebeaminitiative午间演讲中披露了该公司如何利用其机器日志文件中的数据使深度学习正常工作,从而预测像“mura”(不均匀的亮度影响,使人担心)这样的异常,但众所周知,图像处理算法很难在fpd掩模上检测到。
通常,操作人员执行非常枯燥和容易出错的过程,但很难使用传统算法来实现自动化,因此这是深入学习的好选择。无论是通过视觉检查还是其他方法,检查特定情况的专业人员都很有可能正确执行任务。但是面对许多类似的情况,人类会犯错误,变得越来越不可靠。
在某些情况下,深度学习可能不像人类那样好。但在某些情况下,它比人类做得更好。随着任务时间的增加,人类会犯更多的错误;然而,深度学习的成功概率不会随着数量或时间的增加而降低。
深度学习的成功有助于缩小差距
一旦深度学习计划确定下来,将会有各种各样的可用资源引导你走向成功,同时仍然允许你对你的数据保持严格的控制。如果您是深度学习的新手,并希望为深度学习试点项目提供全面支持,您可以加入电子制造深度学习中心(cdle,www.cdle.ai),这是一个拥有人才和资源的行业联盟,旨在提升我们独特的问题空的深度学习的高级水平,并加快我们企业每一个产品的深度学习。
如果您已经开始深度学习项目,但由于深度学习数据差距而遇到问题,d2s可以帮助您构建数字双胞胎,您需要扩展和调整它们以使dl成功。
标题:数字孪生弥合了深度学习的数据鸿沟
地址:http://www.hcsbodzyz.com/hcxw/142.html