时间:2024-07-28
汪俊亮 秦 威 张 洁
上海交通大学,上海,200240
基于数据挖掘的晶圆制造交货期预测方法
汪俊亮秦威张洁
上海交通大学,上海,200240
摘要:晶圆订单的交货期预测对于保证订单交付的准时性和平顺性,具有重要的意义。然而,晶圆制造中的在制品数量多、生产周期长的特点加剧了交货期预测的复杂性。基于海量晶圆制造数据,设计回归模型来对1669个晶圆加工过程参数与订单交货期指标之间的关联关系进行分析,并采用费舍尔Z变换筛选得到强相关变量,对所得到的强相关变量采用案例推理方法实现了晶圆制造订单交货期的精准预测。
关键词:晶圆制造;数据挖掘;交货期预测;案例推理
0引言
交货期预测作为晶圆制造运行过程研究中的重要问题,一直受到学术界的关注[1-2]。传统的交货期预测方法主要可以分为四类[3]:直接推理方法、仿真方法、分析方法和统计方法。直接推理方法利用工作特性、静态和动态车间状态等信息,通过预测每道工序的加工时间,从而推理得到订单的交货期[4]。该方法简便、容易计算,但在复杂的制造过程难以实现交货期的精准预测。仿真方法是在交货时间预测研究中广泛采用的先进方法,Vig等[5]基于不同设计的仿真规则,进行交货期的预测。分析方法采用排队论、马尔可夫模型等数学工具,尝试估计订单交货时间的平均值和标准差[6]。然而,分析方法的假设通常过于简单,不符合真实条件,这导致其应用受到限制。统计方法采用回归方法[7]和关联分析[8]寻找订单交货时间和其他变量的关系,在变量的选择上仍然采用基于经验的方法。
晶圆制造的设备种类多、数量多,在制品数量和产品工序多,制造工期漫长这些特性使得晶圆制造交货期预测问题成为一个复杂大规模的问题[9],传统的交货期预测方法难以适应。晶圆车间是典型的智能化工厂,其中的智能生产设备、数据通信网络和传感器可将制造过程数据源源不断地采集上来。智能化车间的普及使得以数据挖掘和分析为核心的大数据技术被广泛应用在设备故障预警[10]、产品质量控制[11]和生产成本优化[12]等方面。数据挖掘方法通过探究数据之间的关联关系,为解决大规模复杂问题提供了新思路。因此,本文基于数据挖掘技术,对海量制造数据进行分析,从而实现晶圆制造订单交货期的精准预测。
1问题描述
在晶圆制造车间中,晶圆加工过程的制造数据(如晶圆卡等待时间)由传感器测得,并通过工业网络传输搜集,另一部分数据(如每个站的剩余总工作量)从制造执行系统、资源管理系统等信息系统中获取。本文对这些有可能影响晶圆交货期的制造数据进行采集,并通过数据挖掘和分析方法,判断筛选与订单交货期强相关的变量,并用于交货期预测,所采集的晶圆制造候选变量如表1所示。
表1 预测订单交货期的候选数据
晶圆制造中,复杂多样的产品工艺路线与大量的车间在制品使得候选数据具有海量、高维和异构的特点。从数据的体量上来说,2000个订单的工期预测候选数据集就达到了140万条,具备海量特点;从数据的维度上来说,候选数据中有订单特性数据、制造设备状态数据、物流系统状态数据,具备高维度特点;从数据的结构来说,候选数据涵盖时间类型、有比例类型、数值类型、序次类型等多种数据。这些数据的特点进一步加剧了计算的复杂性,因此,采用一种高效数据关联关系分析方法对于复杂海量的制造数据处理具有重要的意义。
2交货期与晶圆制造数据相关性分析
考虑到数据的数量和种类,采用回归分析衡量晶圆交货期和不同候选变量之间的相关性。对每一个候选变量作费舍尔Z变换来统一各个候选变量和交货期之间相关性的强度,定义费舍尔变换Z值高的变量为强相关变量。基于预测网络模型和案例推理方法来评估当前订单与历史订单的相似性,从而找出最合适的历史案例进行订单交货期的预测,本研究的框架如图1所示。
图1 基于数据挖掘方法的晶圆交货期预测框架图
2.1回归网络数据模型
本文采用回归分析的方法分析候选数据和订单交货期之间的相关关系,并采用费舍尔Z变换衡量变量和订单交货期之间的相关性,进而筛选得到强相关变量。
单步回归方法和迭代回归方法是两种常用的回归分析方法。单步回归方法对实际生产数据或仿真数据进行单一回归分析,从而确定回归系数的值。迭代回归方法通过多次调用回归分析来计算和修正回归系数的值。考虑到海量的数据要求和高效的算法要求,本文中采用单步回归方法,构造多种回归方程对候选变量进行处理,并通过方差r来验证回归效果,r越接近0,回归效果越好。r表达式为
(1)
2.2基于费舍尔Z变换的关键参数筛选
费舍尔Z变换用于衡量各变量和订单交货期之间的相关性。当X和Y遵循二元正态分布时,费舍尔Z变换是一种方差近似稳定的变换。费舍尔Z变换的定义为
(2)
3订单相似性匹配与交货期推理
在通过数据的相关性分析得到晶圆订单的强相关变量之后,采用基于案例推理(case-based reasoning,CBR)的方法来预测订单交货期。CBR通过对比当前案例与案例组中的案例之间的区别[13],寻找最为匹配的案例,从而实现晶圆订单交货期的预测。在晶圆订单交货期预测中,案例为晶圆的订单,通过订单强相关变量的数值差异来衡量订单之间的相似性,从而实现案例的搜索和对比。
CBR的步骤具体步骤[14]如下:
(1)检索。根据强相关变量,从案例组库中查找相似度最高的案例构建案例组。除了案例组库,检索阶段还从相似知识库中检索。
(2)再利用。重新利用检索所得(最相似)的案例组解决方案,构建一个建议案例组,从而预测新案例组的解。
(3)修改。评估已解决案例组的解决方案的正确性,如有必要则提供测试/修复案例组的解决方案。修改阶段可以手动实现,也可通过知识匹配自动实现。值得注意的是,修改一个建议解决方案很可能比从头解决该问题的要求要低。
(4)保留。因为修复的案例组很可能对解决未来的问题有用,所以将会作为新知识保留在案例组库中。
当前订单变量的相似性定义为
(3)
式中,i为历史数据编号,i=1,2,…,n-1;m为强相关变量的数目;k为订单当前的强相关变量;wk为变量k的Z变换值;vnk为当前订单的变量k的值;vik为历史数据的变量k的值。
订单的交货期预测准确度可由“精确度”和“稳定性”来确定。在本文中,我们采用平均绝对偏差PMAD来衡量精确度,采用交货期的方差PLV来衡量稳定性:
(4)
(5)
4实验设计
本文的研究对象是某300 mm晶圆生产线,该生产线主要生产3种类型的晶圆,三者具有完全不同的工艺路线,如表2所示。本文对产品A的订单完工时间进行预测研究,该晶圆产品涉及320道包含多重入流的工序。基于该生产线的实际情况,本文建立了虚拟化的晶圆制造仿真系统,并获取了400组晶圆订单生产数据(如表3所示,每组数据包括1669个候选变量),作为交货期预测的数据基础。系统中每道工序的处理时间在0.95倍至1.05倍的该工序平均处理时间内。车间拥有235台机器,其中的瓶颈工作站是光刻曝光站。先到先服务规则长期用于晶圆批次排序调度,因此不考虑调度规则更改对晶圆订单交货期的影响。
表2 本文涉及的晶圆制造车间的产品详情
表3 本文所采用的晶圆订单交货期预测数据
通过对候选数据与晶圆订单交货期的相关分析,在1669个候选变量中筛选得到304个强相关的变量,并基于所得的强相关变量构建关联分析网络,通过案例推理模型和关联网络模型实现晶圆订单的交货期预测。在基于案例的推理中,采用前300组数据构建CRB的案例组库,针对后100组订单数据进行完工时间预测,从而评价算法的性能。
试验结果(表4)表明: CBR方法和BP神经网络算法在晶圆交货期预测的精准度上都具有不错的表现,但是在预测结果的稳定性上,CBR方法要明显优于常见的BP神经网络算法。
表4 CBR方法和BP神经网络方法的交货期预测结果
5结语
本文提出了一种基于数据挖掘的两个阶段交货期预测方法:设计了一种单步回归算法从大量候选变量中自动选择强相关变量;采用基于案例推理的方法来寻找最匹配的历史数据并预测订单交货期。进一步的研究将从以下两个方面展开:①采用更多的晶圆车间的实际生产数据进行数值试验,来评估本文提出方法的有效性;②应用多种不同的交货期预测方法与CBR方法的预测准确性、稳定性、求解速度进行对比。
参考文献:
[1]RajanSuri.It’saboutTime:theCompetitiveAdvantageofQuickResponseManufacturing[M].NewYork:ProductivityPress,2010.
[2]MamaniH,MoinzadehK.LeadTimeManagementthroughExpeditinginaContinuousReviewInventorySystem[J].ProductionandOperationsManagement, 2014, 23(1): 95-109.
[3]ChungSH,YangMH,ChengCM.TheDesignofDueDateAssignmentModelandtheDeterminationofFlowTimeControlParametersfortheWaferFabricationFactories[J].IEEETransactiononComponent,Packaging,andManufacturingTechnologyPartC,1997,20:278-287.
[4]SmithML,SeidmanA.DueDateSelectionProcedureforJob-shopSimulation[J].Computers&IndustrialEngineering,1983,7(3):199-207.
[5]VigMM,DooleyKJ.DynamicRulesforDue-dateAssignment[J].TheInternationalJournalofProductionResearch, 1991, 29(7): 1361-1377.
[6]EnnsST.JobShopFlowtimePredictionandTardinessControlUsingQueueingAnalysis[J].InternationalJournalofProductionResearch,1993,31(9):2045-2057.
[7]ShaDY,StorchRL,LiuCH.DevelopmentofaRegression-basedMethodwithCase-basedTuningtoSolvetheDueDateAssignmentProblem[J].InternationalJournalofProductionResearch, 2007, 45(1): 65-82.
[8]KaplanAC,UnalAT.AProbabilisticCost-basedDueDateAssignmentModelforJobShops[J].TheInternationalJournalofProductionResearch,1993, 31(12): 2817-2834.
[9]QinW,ZhangJ,SunY.Multiple-objectiveSchedulingforInterbayAMHSbyUsingGenetic-programming-basedCompositeDispatchingRulesGenerator[J].ComputersinIndustry, 2013, 64(6):694-707.
[10]GEMovesMachinestotheCloud[OL]. [2013-07-18].http://www.Businesswire.com/news/home/0130618006446/en/GE-Moves-Machines-Cloud#.UxQ7No2BS50,1989.
[11]BrownB,ChuiM,ManyikaJ.AreYouReadyfortheEraof“BigData”[J].McKinseyQuarterly, 2011, 4: 24-35.
[12]农夫山泉:HANA应用在企业中层层展现[OL]. [2012-04-26].http://www.ileader.com.cn/html/2012/4/26/49926.htm.
[13]GuoYuan,HuJie,PengYinghong.ACBRSystemforInjectionMouldDesignBasedonOntology:aCaseStudy[J].Computer-AidedDesign,2012,44:496-508.
[14]RiesbeckCK,SchankRC.InsideCase-basedReasoning[M].London:PsychologyPress, 1989.
(编辑张洋)
DataMiningforOrders’LTForecastinginWaferFabrication
WangJunliangQinWeiZhangJie
ShanghaiJiaoTongUniversity,Shanghai,200240
Abstract:The accurate prediction of LT plays an important role to help semiconductor manufacturers keep the promises of an accurate and steady delivery-time. However, the large production scale, and long cycle time significantly substantiated the complexity of such a problem. Based on large amounts of manufacturing data, a regression-based model which took account of thousands of parameters was proposed to obtain the correlation among 1669 manufacturing variables and LT. To select “LT-related” variables which had high mean Z-transformed correlations, the Fisher Z-transformation was applied, and the case-based reasoning method was designed to forecast orders’ LT accurately.
Key words:wafer fabrication;data mining;lead-time (LT) forecasting;case-based reasoning
收稿日期:2015-01-09
基金项目:国家自然科学基金资助重点项目(51435009)
中图分类号:TH166
DOI:10.3969/j.issn.1004-132X.2016.01.017
作者简介:汪俊亮,男,1991年生。上海交通大学机械与动力工程学院硕士研究生。主要研究方向为制造系统建模与优化。秦威,男,1985年生。上海交通大学机械与动力工程学院讲师、博士。张洁,女,1963年生。上海交通大学机械与动力工程学院教授。
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!