共查询到18条相似文献,搜索用时 156 毫秒
1.
一种基于DOM树的XML数据频繁模式挖掘算法 总被引:2,自引:0,他引:2
由于XM L数据具有半结构化特性,使得面向XM L数据的数据挖掘不同于面向关系数据库的数据挖掘,它具有更复杂的层次结构。研究基于DOM树的XM L数据频繁模式挖掘算法,提出面向XM L数据的频繁模式增量式挖掘算法F reqtT ree。该算法首先将XM L数据转化成DOM树,然后从DOM树挖掘所有频繁模式。F reqtT ree算法采用最右扩展技术,只在树的最右分支上增加新结点生成新树。同时充分利用已生成的频繁模式信息,使得产生的候选模式数量较少。F reqtT ree算法利用频繁k-1模式的支持数计算候选k模式的支持数,该算法只对DOM树遍历一次,具有较高的效率。采用多组数据对此算法的性能进行检验,并与其他算法作对比实验,实验结果表明该算法高效可行。 相似文献
2.
从提高制造业信息化中数据质量的角度出发,分析了建立基于规则库和算法库的可扩展数据清理框架的必要性,设计了一种基于多种规则结合不同算法以流程方式完成清理任务的可重构的数据清理框架。在框架的设计中,以实例方式总结了数据质量问题的分类,详细阐述了该框架的结构、组成部分以及工作流程。最后,通过数据清理实例说明了该框架中流程的实现及其工作过程。本文提出的数据清理框架功能将随着不同领域清理任务的完成而不断完善。 相似文献
3.
4.
刘键 《中国民航飞行学院学报》2021,(3):28-30
发动机燃/滑油热交换器内漏故障导致滑油渗漏实时告警频繁触发.工程师在排故初期方向错误,始终无法确认故障原因.融合利用运行数据和机载数据,从大数据分析的角度来总结此次故障的经验和教训,引导工程师形成利用大数据来分析解决故障的思维方式. 相似文献
5.
取大取小算法问题讨论 总被引:2,自引:0,他引:2
取大取小算法是模糊数学中的一个重要的方法之一 ,在工程应用中得到了广泛的应用。但有人提出了“在模糊综合评判时 ,取大取小算法是一个错误算法”的论点。本文首先通过对模糊综合评判的评价函数所作的理论分析并辅以实例说明了取大取小算法是模糊综合评判的一个可取的算法 ,作者还从广义合成运算的模糊综合评判的角度 ,论述了取大取小算法的正确性 ,与上述论点进行商榷。同时作者也对取大取小算法在某些情况下出现失效的现象进行了讨论 ,并提出了改进的措施。作者认为不能因取大取小算法在特定情形下的失效就全盘否定其理论上的正确性和工程上的可用性。 相似文献
6.
人工鱼群算法研究综述 总被引:1,自引:0,他引:1
王培崇 《中国民航飞行学院学报》2013,24(4):22-26
针对近年来人工鱼群算法的文献进行了总结和研究。首先介绍了鱼群算法的基本计算原理;随后,分析了鱼群算法的部分参数对于算法寻优结果的影响,并介绍了鱼群算法的相关改进方法和部分应用成果,指出了鱼群算法未来的改进与研究方向。 相似文献
7.
一种基于模糊聚类的组合BP神经网络数据挖掘方法 总被引:1,自引:0,他引:1
介绍了一种基于模糊聚类的组合BP神经网络的数据挖掘方法,并给出了该方法的模型和启发式BP改进算法Heuristicbp。且将其应用于数学函数值预测中,取得了学习时间短和预测精度高的效果,证明该方法是有效的,具有较高的实际应用性。 相似文献
8.
缺损数据处理是个数据质量管理难题,本文提出了基于策略模式的缺损数据处理方法,旨在提高异构数据源集成工具的可扩展性.它封装了各种有效的缺损数据处理算法,使客户可以根据自身不同的使用要求(如时间、空间)来权衡取舍不同策略中的算法,如简单处理、KNN算法. 相似文献
9.
针对现实场景中大量无监督数据无法有效利用的特点,提出了一种基于数据相似度匹配的半监督学习算法。该方法结合一定的先验知识,通过无监督学习的方式,计算未标记数据与少量有标记数据之间相似度,从而对少数类样本进行扩充。利用构造后的数据集进行模型训练,从而提高模型对于少数类的识别效果。该方法能有效改进分类任务中数据分布不平衡及标记困难的问题,在一组基于真实场景下的电力传感器检测数据分类任务中取得了较好的少数类识别效果。通过对比传统以及半监督的多种分类算法,该方法虽然在准确率上低于传统方法,但是在召回率与F1值的表现上超越传统方法。 相似文献
10.
11.
一种数据无损压缩技术的研究 总被引:3,自引:0,他引:3
刘方 《南京航空航天大学学报》1995,27(6):804-809
分析了目前数据压缩技术中最常用的LZW算法,并针对压缩字典的建立过程和字典填满老化后如何更新处理提出了新的设想。在实现过程中,用原LZW算法中新加入字典的词条作为辅助前缀来产生较多较长的词条,用以加速压缩字典的建立过程,增加从字典中找到词条匹配的概率,在字典填满并老化后,采用部分更新字典的办法加速字典的重建,从而对原LZW算法作了两点改进。本文举例说明了两种算法的不同之处,并经实验比较证明,改进后的算法在数据压缩率方面优于原LZW算法。 相似文献
12.
提出一种基于Spark计算框架的海量视频语义标注方法。将存储在Hadoop分布式文件系统(Hadoop distributed file system,HDFS)上的海量视频部署到若干计算节点上,依据分形特征实现镜头快速分割。提取样本关键帧的颜色、纹理和分形特征向量,进行元学习策略训练,进而形成视觉词典。根据视觉词典对检测视频内容进行分析,产生一系列能表征视频内容的视觉单词。根据重要程度,通过马尔科夫链按重要程度对视频的视觉单词进行排序,并将排列结果作为该视频的标注。最后,从检测正确率、平均运行时间和扩展效能方面与传统分布式计算模型进行了对比。 相似文献
13.
NHMDB是基于扩充关系数据模型的多媒介数据库系统,它以扩充关系为基础支持面向对象的主要特性。数据字典在格式化数据的管理中发挥了重要作用。但在非格式化数据诸如图形、图像、语音等形式的数据管理方面的应用尚未得到很好的研究。本文主要讨论把传统的数据字典技术加以扩充使其支持多媒介数据对象的管理,支持复杂对象的描述,支持抽象数据类型,对象类、超类、子类和继承性的概念。 相似文献
14.
利用SQL SERVER实现数据导入和导出 总被引:6,自引:0,他引:6
本文介绍了异构环境下数据迁移的基本原理,并对SQL Server中数据传输和转换的工具作了简要分析;提出用DTS向导实现数据导入导出的方法。 相似文献
15.
在航天器部组件产品试验时存在着海量闲置数据,但由于缺少有效的数据挖掘手段,型号产品的寿命和质量一致性一直得不到有效评估。本文给出了航天器部组件产品实时寿命预测方法和质量一致性评价方法的实施流程,并分析了各类退化预测建模方法和包络建模方法的适用条件。案例验证表明,实时寿命预测可以采用产品性能的实时监测信息,建立产品退化特征预测模型,实现对加速寿命的动态预测;质量一致性评价可以采用历史产品试验信息,构建成功包络线,实现对被试产品是否满足质量一致性要求的有效判别。 相似文献
16.
EDI与EDP数据映射技术 总被引:1,自引:0,他引:1
李俊 《南京航空航天大学学报》1998,30(4):447-452
就电子商贸的关键技术——电子数据交换(EDI)展开讨论,针对EDI和电子数据处理(EDP)的接口问题,分析了国际通用的UN/EDIFACT格式化数据标准,并结合EDP应用系统的数据结构,讨论了EDI实际应用报文的生成方法,阐述了EDI与EDP数据映射的工作原理,介绍了基于各种数据库管理平台的EDP应用系统进行数据映射通用软件结构设计的思想,文中最后给出了EDI与EDP自动映射的软件原型系统。 相似文献
17.
要在数据仓库环境中获得长期优良的性能最大的障碍就是发现数据仓库中大量的休眠数据;数据仓库中的海量数据隐藏了最终用户查询所需要的数据,降低了查询效率。用于提高数据仓库性能和减少休眠数据存储费用最有效的方法就是移除休眠数据。本文简要分析了休眠数据进入数据仓库的主要方式;改进了数据仓库中休眠数据量的统计方法,以便准确地计算休眠数据量的大小;设计了利用活动监视器监视运行于数据仓库的事务以便查找休眠数据;提出了用近线存储方案移除休眠数据和利用跨媒体存储器管理休眠数据的方法,取得了较好的应用效果。 相似文献
18.
在分布式数据流系统中,连续查询网络数据流通常需要在多台计算机上运行,其中每台计算机运行连续查询网络的一个子网,它们相互合作共同完成连续查询任务。当输入数据流速发生较大波动时,会引起相关连续查询子网过载,从而影响整个连续查询网络的数据处理能力。针对这一实际问题,分析了分布式数据流系统和连续查询网络的特点以及现有负载处理方法,建立了问题的规划模型,提出了分布式数据流处理的一种负载分配策略。该策略以元操作为基本负载移动单元,在保证系统负载平衡的前提下,极小化节点间的数据传输量。实验测试了负载与延迟之间的关系以及负载随时间的波动情况,结果表明了策略的有效性。 相似文献