热轧带钢性能预报技术研究中的几个误区_轧钢文献_技术文献

郭朝晖，苏异才，张群亮，王巍，张丕军

（宝山钢铁股份有限公司研究院，上海　２０１９００）

摘要：热轧带钢力学性能预报技术的研究已有几十年，但应用效果却不理想。本文针对这种现象进行了分析，认为造成这种现象的主要原因是部分研究团队在确定研究目标和技术线路时陷入误区，导致大量徒劳无益的时间浪费。在成功规避误区的基础上，宝钢研发出全局分布式热轧带钢性能预报模型。本文介绍了其良好的实际应用效果。

关键词：热轧带钢；性能预报；模型；误区；有偏估计

１前言

２０世纪５０年代，Ｉｒｖｉｎｅ和Ｐｉｃｋｅｒｉｎｇ提出了用数学模型预测钢材组织演变和最终力学性能的想法，２０世纪９０年代，该研究成为世界热点［１－３］

。目前，该技术已有商业化产品出现，如热连轧带钢质量控制系统（ＶＡＩ－Ｑｓｔｒｉｐ）

［４］、西门子公司的ＢＭ＿ＭＭ［５］、ＩＮＴＥＧ公司的ＨＳＭＭ［６］等。然而，截至目前，许多研究虎头蛇尾，各种商品化软件也面临尴尬。用户普遍认为模型可有可无，应用价值不大。

造成这种现状的原因有主客观两个方面。客观原因是数据条件不具备。由于大生产的数据质量不高，根据统计学原理推断，要建立完整、稳定、可靠的力学性能模型，至少需要１０万条以上的数据。主观原因是陷入了认识的误区，对问题的复杂性和难度估计不足，又缺乏及时、深刻的反思，制定的技术目标和研究线路往往脱离实际。

１０多年前，宝山钢铁股份有限公司对性能预报技术展开了研究［７］。在多次失败和深入反思的基础上认识到，一些看似理所应当的观点并不合理。本文将这些看似合理的错误观念称之为“误区”。宝钢的实践表明，只要避开这些误区，完全可建立实用的数学模型。

２概念辨析

２．１精度的概念

人们往往把精度作为衡量模型好坏的唯一依据，把提高精度作为建模的唯一目标。但这种观念是有风险的。

用户关心的精度，是模型使用时的精度；而评价模型时，往往用历史数据的平均精度。对于性能预报模型来说，这两种精度的差异可能非常大。造成这种差异的原因很多，如建模数据分布的范围，未必包含应用模型时的数据范围；以往数据的统计特征，未必等同于新数据的统计特征。因此，模型的平均精度高不等于精度均衡，而提高历史数据的精度，未必能提高模型使用时的精度。如果仅仅试图减少历史数据的平均误差，研究过程就会陷入误区。

２．２精度的极限

模型精度不可能无限提高，对于历史数据，精度也存在着不可逾越的极限。这是由于当模型精度达到一定水平后，误差的主要来源不是模型的失真，而是输入数据的误差。不难理解，即便模型完全正确，有误差的输入也不可能得到精准的预报结果。但很少有人意识到输入误差是预报误差的主要来源。下面以钢材伸长率为例，分析测量误差的作用。

通常，在同一个位置取样测量两次，结果也会存在差异，即为检测误差。检测误差服从特定的概率分布。通过成对取样，可以测算误差分布的标准差，记为ó１。同时，钢材的伸长率会存在一定的波动，其标准差记为ó２。研究发现：ó１/ó２≈０．４～０．８。

显然，预报误差的标准差不可能小于ó１，模型的精度不可能很高。钢材的抗拉和屈服强度情况与其类似，只是误差更多地来源于成分和工艺参数的检测。

理论上讲，成分、工艺对性能的影响是非线性的。但是，研究发现多元线性回归模型非常接近性能预报模型的精度极限。这是因为，当自变量变化范围很小时，非线性系统往往可以用线性模型逼近。事实上，这也是微分原理的具体体现。

所以，如果仅仅为了提高精度，根本没有必要建立复杂的模型。

２．３单纯追求精度的危害

过度追求模型相对历史数据的精度，存在两方面的危害：一是浪费研究时间，如前所述，数据准备完成后，立刻可得到多元线性回归模型，其精度与任何高级的模型大体相当。为提高精度而花费多年时间研究是基本没有价值的。二是会得到错误的模型，最常见的问题是滥用神经元方法，会导致模型“过拟合”，缺少泛化性。

其实，即使对最简单的一元线性模型，单纯追求精度也是有害的。这可以严格证明，假设实际对象描述如下：

常规的做法是用最小二乘法估计参数ｋ。假设自变量ｘ存在检测误差η，则：

式（２）表明，自变量存在检测误差时，估计值的数学期望不等于真实值。这种现象在统计学上称为“有偏估计问题”，亦即模型输入存在检测误差时，如果单纯追求误差最小，则客观规律会被扭曲。反向理解这个结论，即为当输入数据存在误差时，正确的模型并非误差最小。

通常，人们往往忽视自变量的检测误差。但如果建模数据来自大生产，检测误差的影响就会相当大，无法忽略统计结果的扭曲。

２．４认识模型的实用性

研制模型的困难在于需要在特定的条件下，满足用户综合性（精度、适用范围、稳定可靠、算法简单）的需求。

模型精度是重要的指标，但模型精度往往不稳定，误差随工况、产品、时间变化。如果误差的变化规律难以把握，模型在实践中就难以应用。

导致模型精度不稳定的原因很多，超出模型适用范围是常见的原因之一。多数性能预报模型只适用于特定钢种和工艺，只要参数稍微超出正常的波动范围，模型误差就会迅速增加。然而，扩大模型的适用范围往往是模型研制的难点。

另外，无论适用范围再大，总会有失效的边界。即便在适用范围之内，精度也会变化；如果不清楚模型精度的变化规律以及模型的适用边界，也难以应用模型。提高模型的可靠度，往往是研制实用模型过程中最困难的事情。

从软件角度看，模型的研发也存在各种困难。最典型的要求是模型要足够简单、计算速度足够快、算法足够可靠。

总之，人们对实用模型的要求是多方面的，而各个方面是存在矛盾的，现实条件下往往找不到各种指标都最好的模型。

２．５指标的矛盾

人们对性能预报模型有多方面的的要求，但各种指标之间存在矛盾。

人们常常认为只要提高模型的精度，就可以扩大适用范围、提高可靠性。但是，由于模型受数据精度和完整性的影响，模型的适用范围、精度、可靠性之间存在矛盾。前面讲到的“有偏估计”就反映了这种矛盾。

认识到矛盾的存在，就可根据用户具体需要适当取舍。例如，需要模型应用范围大的时候，就要偏重模型的正确性而不是精度。这样，即便得不到高精度的模型，却能得到实用的模型。

３模型研发的误区

３．１技术定位错误

技术定位错误是指没有明确的功能目标，或制定了价值很小、无法实现的功能目标。这种错误可导致整个研究过程误入歧途。所以，技术定位必须在项目开发之前确定。

技术定位错误的两个主要方面：

（１）认为性能预报模型的应用前景非常广泛，只要把模型精度提高，就不愁模型的实用性。但如前所述，显著提高精度的梦想是无法实现的，故在应用上也难以突破。

（２）选择替代取样作为主要的应用点。这个定位的问题在于：受到贯标和用户需求的约束，能替代取样的情况不多，经济价值不大；找不到合适的钢种，对于性能稳定的钢种，线性多元模型的精度足够了，没必要深入研究；对性能不稳定的钢种，模型精度往往很低，达不到实用的程度，也不必深入研究。

宝钢的研究结果表明，可以以钢种优化、新钢种设计、性能动态控制为目标建立模型。而模型的外延性非常重要，以新钢种设计尤为突出，如果模型用于从未生产过的钢种，就要在训练前给出预报结果。这时，模型的可靠性、稳定性都会受到挑战。

如上所述，模型的精度与适用范围存在矛盾。为此，必须找到合适的建模思路，更好地平衡这对矛盾。

３．２机理还是统计

性能预报模型的建模方法有两个思路：统计建模和机理建模。

统计建模简单方便，但其缺点是即使模型结构相同，系数也会相差很远。所以，统计模型可靠度无法保证。造成这种现象的原因之一是简单的统计模型不足以描述冶金机理的复杂性。为此，人们试图通过冶金机理来提高模型的可信度。

但是，机理研究也会碰到困难，如组织演变过程过于复杂、机理研究不充分等。其中，过程的复杂性表现在影响因素众多、组织特征复杂。机理研究的不充分表现在子模型往往是统计模型、对模型系数的变化规律研究不深等。

从问题复杂性、数据质量和数量上看，建立组织模型的难度远大于直接建立性能模型。故作者认为，过度依赖组织预报的性能预报也难以成功。

３．３局部还是全局

一般认为，模型研究应该从个别到一般：首先研究单个钢种，逐步扩展到钢种组，最后才可能研究全局模型。但是，在研究性能预报模型时，这一原则受到了挑战。

对单个钢种研究成熟后再进行多钢种的研究，但发现精度往往难以显著超越多元线性模型，这其实是数据的随机误差过大引起的。

事实上，针对单个钢种的研究存在极大的弱点，即数据的信噪比很低。由于单个钢种的成分和工艺往往集中在某个区域附近，参数的波动和检测误差常常处于同一个级别，所反映的规律是扭曲的。另外，实践和理论推导都表明，对单个钢种建模，也需要有２０００～２００００组数据，参数估计才能稳定。但能满足这个要求的钢种很少。所以，也不宜将过多的时间用于单钢种建模。

反之，如果将多个钢种放在一起，数据的信噪比可以显著提升。这虽然也会带来一些新的困难，但有成熟的理论［８］可克服困难。

４宝钢的探索

４．１建模思路

宝钢把钢种优化、新钢种设计、性能动态控制作为模型应用的目标。要实现这个定位，关键是在稳定可靠的前提下提高模型的外延性。

具体思路是：用数据挖掘的方法发现基本统计规律；用冶金机理确定其中的因果关系；用统计学方法得到精确的量化关系；最后，用数据建模的技巧将量化关系合成为完整的模型。其中，精确的量化关系不能仅仅依靠统计回归，要根据具体的数据特征，对统计的偏差进行矫正。这样，实现了冶金机理和统计技术的有机结合。

４．２模型特征

宝钢的模型称为“全局分布式性能模型”。

“全局”是相对于特定钢种或钢种类型而言。该模型能准确预报约７００个钢种，几乎囊括了高碳钢以外的所有钢种，占宝钢近１０年来生产热轧钢种的９５％左右。对预报范围内的新钢种，不需要重新建模；根据事先发现的规律，模型可补偿季节因素引发的性能波动；预报误差的时间稳定性强，不需要自学习修正；同时，只要进行简单的基准点调整，就可用于不同的热轧产线。

“分布”是指模型预报的结果不是唯一的数值，而是性能的概率分布。如前所述，当模型基本正确时，模型误差的来源是随机不确定因素，如测量误差。这样，同样的模型输入，测量结果并不唯一，而是服从特定的概率分布。根据分布，可以计算出性能合格的概率。与之相比，传统的预报结果相当于分布的均值。

预报分布表明，模型误差不仅是客观的，而且是可以预知的。这一观点的依据是对于特定的生产线，测量误差的分布是相对稳定的。由于随机误差在不同情况下的作用不同，不同钢种的误差分布会有所差异。这意味着全局误差在本质上就是不稳定的，但却是可预知的，而这恰恰是预报分布的价值所在。

４．３应用案例

宝钢全局分布式模型的优点主要体现在实用性上。可广泛地用于新钢种设计、钢种优化、性能动态控制、合同集约等多个方面。

４．３．１　新钢种设计

表１是对某钢种第１炉数据、１１卷带钢的预报结果。从表１可以看出，强度平均值的预报相当准确。但抗拉强度和屈服强度标准差的预报与实测值相差较大。

预报标准差，是针对整个钢种，而新钢种的统计结果仅仅来源于一炉钢水。显然，一炉钢的性能波动肯定小于整个钢种的性能波动。对几十万条数据统计后得知，钢种强度波动的标准差大约为炉次内部性能波动标准差的１．５倍。这样，如果将预报标准差换算成炉次内部的，相应的数值就分别变成３３．２ＭＰａ和３１．０ＭＰａ，和实际测量值相当吻合。

这样，在用户要求给定的前提下，就能事先算出对应的产品合格率，从而判断新钢种是否适合大生产。

４．３．２钢种优化

２０１１年初，某钢种１炉钢的１０卷带钢中出现了４卷性能不合，找不出原因。

经模型计算，该钢种取样合格率预测值为６８％，实际检验合格率为７２％。故而出现一定比例的不合是必然的。根据模型计算建议，如果将出炉温度提高２０℃，不合格率将降至１％以下。

５结语

人类研究性能预报技术已有５０年。这不仅说明它的重要性，也反映了问题的难度。从某种意义上说，研制性能预报模型不难，难的是研制出实用的模型。模型要实用，不仅需要一定的精度，还应具有适用范围大、可靠度高、稳定性强的特点。本世纪以前，该项研究的主要约束在数据条件不足；本世纪以后，技术定位和研发思路更多地决定了工作的成败。宝钢的经验表明，只有合理地规避认识上的“误区”，才能研制出真正实用的性能预报模型。

参考文献：

［１］Ｓｅｌｌａｒｓ　Ｃ　Ｍ，Ｗｈｉｔｅｍａｎ　Ｊ　Ａ．Ｒｅｃｒｙｓｔａｌｌｉｚａｔｉｏｎ　ａｎｄ　ＧｒａｉｎＧｒｏｗｔｈ　ｉｎ　Ｈｏｔ　Ｒｏｌｌｉｎｇ［Ｊ］

．Ｍｅｔａｌ　Ｓｃｉｅｎｃｅ，１９７８，１３（５）：１８７－１９４．

［２］Ｓｉｃｉｌｉａｎｏ　Ｊｒ　Ｆ，Ｊｏｎａｓ　Ｊ　Ｊ．Ｍａｔｈｅｍａｔｉｃａｌ　Ｍｏｄｅｌｉｎｇ　ｏｆ　ｔｈｅ　ＨｏｔＳｔｒｉｐ　Ｒｏｌｌｉｎｇ　ｏｆ　Ｍｉｃｒｏａｌｌｏｙｅｄ　Ｎｂ，Ｍｕｌｔｉｐｌｙ　Ａｌｌｏｙｅｄ　Ｃｒ－Ｍｏ，ａｎｄ　Ｐｌａｉｎ　Ｃ—Ｍｎ　Ｓｔｅｅｌｓ［Ｊ］．Ｍｅｔａｌｌｕｒｇｉｃａｌ　ａｎｄ　ＭａｔｅｒｉａｌｓＴｒａｎｓａｃｔｉｏｎｓ　Ａ，２０００，３１（２）：５１１－５３０．

［３］干勇，刘正东，王国栋，等．组织性能预报系统在宝钢２０５０热轧生产线的在线应用［Ｊ］．钢铁，２００６，４１（３）：３９－４３．

［４］Ａｎｄｏｒｆｅｒ　Ｊ，Ｈｒｉｂｅｒｎｉｇ　Ｇ，Ｌｕｇｅｒ　Ａ，ｅｔ　ａｌ．Ｆｏｒ　ｔｈｅ　ＦｉｒｓｔＴｉｍｅ　Ｅｖｅｒ：Ｆｕｌｌ　Ｍｅｔａｌｌｕｒｇｉｃａｌ　Ｃｏｎｔｒｏｌ　ｏｆ　ｔｈｅ　ＭｅｃｈａｎｉｃａｌＰｒｏｐｅｒｔｉｅｓ　ｏｆ　Ｈｏｔ－ｒｏｌｌｅｄ　Ｓｔｒｉｐ　Ｗｉｔｈ　ＶＡＩ－ＱＳｔｒｉｐ［Ｊ］．Ｉｒｏｎａｎｄ　Ｓｔｅｅｌ，２００１，３６（１）：４２－４６．

［５］Ｓｅｎｕｍａ　Ｔ，Ｓｕｅｈｉｒｏ　Ｍ，Ｙａｄａ　Ｈ．Ｍａｔｈｅｍａｔｉｃａｌ　Ｍｏｄｅｌｓ　ｆｏｒＰｒｅｄｉｃｔｉｎｇ　Ｍｉｃｒｏｓｔｒｕｃｔｕｒａｌ　Ｅｖｏｌｕｔｉｏｎ　ａｎｄ　Ｍｅｃｈａｎｉｃａｌ　Ｐｒｏｐｅｒ－ｔｉｅｓ　ｏｆ　Ｈｏｔ　Ｓｔｒｉｐｓ［Ｊ］．ＩＳＩＪ　Ｉｎｔｅｒｎａｔｉｏｎａｌ，１９９２，３２（３）：４２３－４３２．

［６］余万华，韩静涛，佘广夫，等．ＨＳＭＭ软件在攀枝花钢铁公司热轧板厂的应用［

Ｊ］．钢铁研究学报，２００６，ｌ８（１１）：６０－６２．

［７］郭朝晖，张群亮，苏异才，等．关于热轧带钢力学性能预报技术的思考［Ｊ］，冶金自动化，２００９，３３（２）：１－６．

［８］王济川．多层统计分析模型：方法与应用［Ｍ］．北京：高等教育出版社，２００．

帐号		自动登录	找回密码
密码			立即注册

冶金信息装备网www.yejinzb.com

热轧带钢性能预报技术研究中的几个误区