首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 46 毫秒
1.
非平衡学习吸引了许多研究者的关注。一般情况下,少数类是更值得关注的,并且其误分类代价要远高于多数类。由于非平衡数据分布的非均衡性,标准的分类算法将难以适用。为了解决非平衡数据分类问题,给出了基于欠采样的零阶优化算法。首先,为了降低数据非平衡分布的影响,针对不同非平衡比的数据集给出了不同的两种采样策略。然后,采用了一种引入间隔均值项的支持向量机(Support vector machine,SVM)优化模型进行分类,并使用带有方差减小的零阶随机梯度下降算法进行求解,提高了算法的精度。在非平衡数据上进行了对比实验,实验证明提出的方法有效提高了非平衡数据的分类效果。  相似文献   

2.
抽油机示功图直观显示了抽油机工作情况,但实际工况情况呈现典型的长尾分布特性,类别严重不平衡。传统方法无法准确识别小类别工况,也无法获得井下工作状态准确识别。针对这一问题,提出一种基于分布驱动的多类别长尾数据代价敏感主动学习算法(Cost-sensitive active learning algorithm based on distribution -driven multi-class long-tailed data, CALA)。首先,考虑数据分布特性,以最小化代价为优化目标确定数据的最佳聚类簇数;其次,通过加入预分类误差代价来更新之前得到的最佳聚类簇数;然后,构建集成分类模型作为分类器;最后,通过迭代来平衡数据分布。采用某油田真实的示功图数据进行测试,显著性实验分析证明CALA在小类别工况诊断上具有更好的性能。  相似文献   

3.
针对现实场景中大量无监督数据无法有效利用的特点,提出了一种基于数据相似度匹配的半监督学习算法。该方法结合一定的先验知识,通过无监督学习的方式,计算未标记数据与少量有标记数据之间相似度,从而对少数类样本进行扩充。利用构造后的数据集进行模型训练,从而提高模型对于少数类的识别效果。该方法能有效改进分类任务中数据分布不平衡及标记困难的问题,在一组基于真实场景下的电力传感器检测数据分类任务中取得了较好的少数类识别效果。通过对比传统以及半监督的多种分类算法,该方法虽然在准确率上低于传统方法,但是在召回率与F1值的表现上超越传统方法。  相似文献   

4.
为了减少大规模数据的支持向量机的样本训练时间,提出了人工免疫(aiNet)和支持向量机(SVM)相结合的算法(ai—SVM)。aiNet能在进行样本压缩的同时抽取原始数据的相关信息并保持原始数据的样本分布。压缩后的样本组成了抗体网络,并在此抗体网络上构建了支持向量机模型。最后结合实际数据样本对ai—SVM算法进行了验证。结果表明,ai-SVM算法可大大减小训练样本集和训练代价,且不降低精度。  相似文献   

5.
提出一种基于改进极限学习机(Online sequence extreme learning machine, OSELM)的新能源电站数据采集与监控(Supervisory control and data acquisition, SCADA)系统攻击检测模型。首先使用ADASYN算法对数据样本中的异常数据和正常数据进行数量平衡,以满足真实电站SCADA系统环境中异常数据量少的特点。接着使用降噪自编码网络对平衡后的数据进行约简,消除无关或冗余特征以降低检测模型的训练时间。最后在AWID数据集上进行了大量对比实验,结果表明,所提的数据约简方法可有效地降低数据维度,降低了检测时间;与其他基于浅层学习算法的检测分类器相比,本文所提方法在检测准确度和误报率方面也体现出了更优性能。  相似文献   

6.
针对传统转子系统故障诊断方法在处理复杂故障数据时存在收敛速度慢和识别精度低问题,提出一种基于交叉熵代价函数的深度置信网络(DBN)故障识别方法。其采用无监督算法初始化限制性玻尔兹曼机(RBM)的参数空间,交叉熵代价函数反向传递误差,优化参数空间,逐层堆叠重置后RBM构建深层模型;利用已有数据建立转子系统智能识别库;在MNISIT手写数字集和转子系统故障数据集上验证,与传统DBN相比,利用交叉熵惩罚函数的深度置信网络可消除由于激活函数本身梯度对参数空间更新速度的影响,能有效地提高分类的精度。  相似文献   

7.
少数类的集成学习   总被引:1,自引:0,他引:1  
传统机器学习中研究的分类问题通常假定各类别是平衡的,但在很多场合各类别的出现概率相差很大,而且很多应用中需要区分重要而稀少的少数类.本文比较了3种基于AdaBoost集成学习方法,并推导出他们的精度几何平均(GMA)的下界.分析表明:类别越不平衡,这3种方法越难以通过提高基分类器准确率来提高GMA.在此结论的基础上,以Bagging为基础提出了单边Bagging算法,该算法只对多数类抽样,而保留所有少数类,因而每轮的训练集是类别平衡的,并通过UCI数据集验证了其有效性.  相似文献   

8.
视频行人重识别是一项应用非常广的计算机视觉任务。目前的视频行人重识别方法通常是基于监督学习的,该方法需要手工标记大量的数据,代价非常高且并不适用于现实场景。本文提出了一种从底向上的基于多样性约束和离散度分层聚类的无监督视频行人重识别方法。该方法首先将每个样本当作是一个不同的类,然后结合类内间离散度进行从底向上的分层聚类,类间和类内离散度都小的类别将被优先合并,同时在聚类准则中加入一项多样性约束来平衡每类中的样本数量,最后,利用线性变化的特征存储器动态更新模型。在Mars和DukeMTMC-VideoReID两个大型视频数据集上的实验结果表明,相比于目前先进的无监督视频行人重识别方法,本文方法在性能上有一定的提升。  相似文献   

9.
非负矩阵分解模型是一种常见的数据降维方法。在现有非负矩阵分解算法用于聚类的研究中,每个类别一般仅由一个或者指定多个中心点表示,然而这种表示方式往往无法准确描述其类别的特征和结构,从而影响聚类效果。为了解决这个问题,本文提出了峰值点非负矩阵分解算法。该算法首先为数据集找到多个密度峰值点,并构建密度峰值点和样本点的二部图,然后利用二部图完成聚类。此外该算法引入流形图正则化项来充分利用数据间的流形结构信息,并给出了算法的迭代更新规则。在大量真实数据集上的实验结果表明,该方法可以更加有效地利用数据本身的结构信息,从而提高聚类效果。  相似文献   

10.
深度学习模型已经在文本和图像等分类任务上取得了不错的效果,然而深度学习模型很难为分类结果提供可解释性。本文提出一种非结构化数据的多粒度集成分类方法,与其他学习方法相比,多粒度集成分类方法能够保留数据的上下文信息。在多粒度集成分类方法中,数据被划分成不同的粒度,用于训练不同的基学习器,这些学习结果为集成模型最后的分类提供了可解释性。基学习器根据它们在验证集上的精度被赋予不同的权重,从而构造出一个较好的集成学习器。在实验中,本文验证了所提出模型在3种非结构化数据类型(文本、医学图像和时间序列)上的有效性。实验结果表明, 本文的模型比现有的基准方法简单,具有较好的分类精度,并且能够为数据的分类提供可解释性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号