首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于前缀树的数据流容错概要结构构造
引用本文:由育阳,张健沛,杨志宏,由勇.基于前缀树的数据流容错概要结构构造[J].北京航空航天大学学报,2011,37(5):564-568.
作者姓名:由育阳  张健沛  杨志宏  由勇
作者单位:哈尔滨工程大学计算机学院,哈尔滨,150001;中国医学科学院药用植物研究所,北京,100193;空军航空医学研究所,北京,100142
基金项目:国家自然科学基金资助项目(61073041)
摘    要:应用于数据流环境的数据挖掘算法应首要考虑算法的时空复杂性,而要实现消耗巨大计算资源的容错模式挖掘则更要专注于算法的效率.容错模式挖掘是为了从被噪声干扰的真实世界数据中获取允许一定程度错配的、更加泛化的有用知识.提出一种新的单遍历、高压缩的容错前缀树形概要结构DSFT-tree(Data Stream Fault-Tolerant Frequent Pattern Tree),用来捕捉最近到达的数据流中的数据元素,并且能够高效移除过期数据,实现最大限度地降低计算资源消耗.利用滑动窗指针和位向量表达法实现容错树形概要结构的高效重构,并进一步基于滑动窗口技术实现了数据流环境下的容错频繁项挖掘.实验采用IBM数据发生器产生事务数据,在合理时间内最终挖掘频繁项的数量为FP-stream算法的1.5倍.

关 键 词:数据流  概要结构  容错模式  前缀树
收稿时间:2010-11-02

Construction of fault-tolerant synopsis over data stream based on prefix-tree
You Yuyang,Zhang Jianpei,Yang Zhihong,You Yong.Construction of fault-tolerant synopsis over data stream based on prefix-tree[J].Journal of Beijing University of Aeronautics and Astronautics,2011,37(5):564-568.
Authors:You Yuyang  Zhang Jianpei  Yang Zhihong  You Yong
Institution:1. College of Computer Science and Technology, Harbin Engineering University, Harbin 150001, China;
2. Institute of Medicinal Plant Development CAMS and PUMC, Beijing 100193, China;
3. Institute of Aviation Medicine, Beijing 100036, China
Abstract:Complexity of data mining algorithm over data stream is the most important and it should be more focused on algorithm efficiency because of the great consumption of algorithm resources.Fault-tolerant frequent pattern mining is more generalized and suitable for extracting interesting knowledge from real-world data stream polluted by noise.An algorithm,called data stream fault-tolerant frequent pattern tree(DSFT-tree),was proposed.It could achieve a frequency-descending and highly compact prefix-tree structur...
Keywords:data stream  synopsis  fault-tolerant frequent pattern  prefix-tree  
本文献已被 CNKI 万方数据 等数据库收录!
点击此处可从《北京航空航天大学学报》浏览原始摘要信息
点击此处可从《北京航空航天大学学报》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号