登高车齿轮箱箱体不平衡数据处理方法有哪些??? 中山港口镇登高车出租
新闻分类:行业资讯 作者:admin 发布于:2018-04-054 文字:【
大】【
中】【
小】
摘要:
登高车齿轮箱箱体不平衡数据处理方法有哪些??? 中山港口镇登高车出租, 中山登高车出租, 登高车出租 登高车齿轮箱箱体的服役过程较长,箱体材料的疲劳损伤过程较长,包括裂纹萌生、稳定扩展和快速扩展阶段,前两个阶段为安全阶段占据了较长的损伤演化阶段,第三个阶段为预警阶段;箱体材料的拉伸损伤过程可以分为弹性、屈服、塑性、断裂四个阶段,第一个阶段为安全阶段且占据了较长的损伤演化阶段,后三个阶段为预警但发展变化极为迅速。在箱体的损伤过程中,有一类数据对于表征箱体损伤状态的敏感度极高,例如检测信号出现频率增大时刻的数据、数据单调性转变及拐点时刻的数据等,可以将这类数据称为关键表征数据。对于箱体及其材料的损伤数据,虽然可以通过基于性能退化方法减少失效数据量少的问题,但损伤过程中的关键表征数据依然相对匮乏,这种情况给基于性能退化的寿命预测模型的准确性提出了巨大的挑战。为此,需要针对箱体材料的损伤特点,解决箱体材料损伤过程中关键表征数据不平衡问题,为建立准确的寿命预测模型打下基础。不平衡数据,其实就是指数据对象中的各类别数据不均衡,也是分类问题中一个典型的存在的问题。简而言之,即数据集中每个类别下的样本数目相差很大。在实际分类问题中,数据不平衡现象经常出现,如医疗诊断、石油泄漏监测、网络入侵监测、信用卡欺诈等。少数类往往包含更重要的分类信息,且错分少数类样本的代价更高。不平衡数据分类关注的是类数据不平衡或未被充分表达情况下学习算法的性能,该问题的研究已经成为机器学习领域的热门课题之一。虽然很多数据集都包含多个类别,但考虑登高车齿轮箱箱体的损伤过程按寿命预测目的可以认为是安全与预警的二分类问题,因此这里详述二分类中的不平衡数据处理问题。在二分类样本中,可以将样本分为正样本和负样本两大类。不平衡程度相同(即正负样本比例类似)的两个问题,解决的难易程度也可能不同,因为问题难易程度还取决于所拥有数据量有多大。比如在投票吉样物名字的问题中,虽然数据不平衡,但选定每个名字的数据量都很大,少的也有几万个样本,这样的问题通常比较容易解决;而在癌症诊断的场景中,因为患癌症的人本来就很少,所以数据不但不平衡,样本数还非常少,解决这样的问题难度很大。因此,可以把不平衡数据问题根据难度从小、到大排个序,即为“大数据+分布均衡”、“大数据+分布不均衡”、“小数据+、数据均衡”和“小数据+数据不均衡”。
中山港口镇登高车出租, 中山登高车出租, 登高车出租
常见的不平衡分类算法主要包括两类,分别是:数据层面的算法和算法层面的算法。所谓数据层面的算法是指对数据集进行重采样处理,从而使得采样之后的数据集处于一种相对平衡的状态。比较常见的算法主要有过采样、欠采样和混合采样。过采样方法的核心思想是对多数类进行正常采样处理,对少数类进行过采样处理,从而确保数据集能够保持相对平衡。同理,欠采样方法的核心思想是对少数类进行正常采样处理,对多数类欠采样处理,从而确保数据集能够保持相对平衡。混合采样方法则是对上述两种方法的综合。结束采样操作之后,可以通过分类算法对新数据集进行分类处理。在使用重采样方法解决数据不平衡问题时,比较关键的一个步骤就是确定最优的类分布。算法层面的不平衡分类算法主要有代价敏感学习、组合方法和基于聚类的方法等。代价敏感学习是基于少类样本的识别和信息的获取具有相对于多类样本更高的价值的前提条件,需要重点偏向学习少类数据。为了体现对少类数据的偏重,可以为少类样本赋予更大的错分代价,具体方式主要有rescaling和reweighted两种。Rescaling方法的核心思想是改变训练集中各个类别的样本数目的比例,主要包括RebalanCe、Rescalenew等。Reweighted方法的核心思想是改变不同类别样本在分类器中的类别分布,这类方法主要有MetaC〇St、基于AdaBoost算法改进的AdaCost1等。组合方法通常是通过构建多个基分类器,首先使用各个基分类器进行预测,然后组合这些基分类器的分类结果,进行投票做出最终的预测。比较常用的算法主要有装袋法(baggmg)、提升法(Boosting)、随机森林(randomforest)等。基于聚类的方法,首先使用聚类方法将数据集聚集成不同类别,使得聚成的类别相对平衡,然后再对其进行分类处理[95]O也有研究人员将解决数据不平衡的方法分为内部方法和外部方法。内部方法通过设计新算法或改进已有算法来解决类不平衡问题,而外部方法则通过对数据进行预处理来减少类不平衡对于分类的影响。此外,在解决数据不平衡问题时,集成学习(ensemblelearning)也是一种比较有效的方法。这类方法的实现主要有两种方式,一种是首先对不平衡数据进行预处理,接下来使用标准的集成学习的算法处理新数据集;另一种是将代价敏感学习框架和集成学习融合在一起。
不平衡数据处理的基本思路是让正负样本在训练过程中拥有相同的话语权,针对数据集的不同特点,研究人员在不平衡数据处理中开展了相应的研究工作。针对不平衡垃圾网页数据集提出了一种结合过采样方法SMOTE与随机森林的改进方法SMOTERF,用于搜索引擎垃圾网页检测;针对正样本远多于负样本的情况,结合Boosting和基于集合的学习算法,提高了正负样本的分类准确率;根据类分布不平衡数据集的特点,提出了三种适合于不平衡分类的目标函数和三种适合于不平衡分类问题的分类算法;对传统SMOTE算法进行改进,提出一种基于聚类融合过采样的分类算法,对少类样本的边界样本进行过采样处理,增加新生成样本的空间分布随机性;提出了一种基于所有少数类和欠采样多数类的新的均衡训练集的集合基算法;提出了一种新的过采样技术dbsmote,使合成实例沿最短路径从每一个积极的实例到少数类簇;将支持向量机与随机森林方法相结合,有效地地检测(从而控制和起诉)信用卡中的负样本数据;在Bayes最优分类理论框架下,提出两条代价敏感损失设计准则;提出一种改进的Baggmg算法,通过对弱分类器分类结果进行可信度计算得到投票权重,提高了Sogou新闻集的分类精度;提出了一种增量式极端随机森林分类器,用于解决视频在线跟踪问题;在数据层面提出聚类KNN算法,使数据按到聚类中心距离排序并进行欠采样处理,提高少数类数据的分类效果。可以看出,对于不平衡数据处理,尤其是二分类的不平衡数据处理,主要采用采样、数据合成、加权等方法来进行处理,处理算法多以模式识别与人工智能的分类、聚类算法为基础。登高车齿轮箱箱体材料损伤数据可以看作典型的二分类不平衡数据问题,可以认为损伤数据中的关键表征数据为正样本,其他损伤数据为负样本。材料损伤过程中的声发射信号正负样本数据量差距悬殊,因此在进行寿命预测模型构建前需要对不平衡数据进行处理。本研究在材料损伤的不平衡数据处理的应用中,不仅是实现正负样本的分类,而且要利用正负样本对寿命预测模型进行建模,因此将采用改变样本类别分布的方法来处理箱体材料损伤数据中的不平衡数据问题。在讨论了不平衡数据处理方法与基于性能退化的寿命预测方法研究现状后,己经具备了处理登高车齿轮箱箱体材料尺度的故障诊断和寿命预测研究的方法基础。
中山港口镇登高车出租, 中山登高车出租, 登高车出租