首页 | 本学科首页   官方微博 | 高级检索  
     

Web数据挖掘系统的设计及关键技术研究
引用本文:刘敏钰,薛鸿民. Web数据挖掘系统的设计及关键技术研究[J]. 航空计算技术, 2005, 35(1): 59-62
作者姓名:刘敏钰  薛鸿民
作者单位:陕西教育学院,计算机系,陕西,西安,710061;陕西教育学院,计算机系,陕西,西安,710061
摘    要:Web数据挖掘是一种新兴的边缘科学技术,它涉及到机器学习、数据挖掘、信息检索、自然语言处理、数据库以及人工智能等技术,可用于网络检索、网站建设以及电子商务等方面。本文在对Web数据挖掘技术详细研究的基础上,提出了一个Web数据挖掘的通用系统框架,并对信息收集、信息选择和预处理、模式的提取和用户接口等各个组成部分所使用的技术和存在的问题及解决的方法进行了讨论。本文结合Web自身的特点,提出了一个智能网页收集器WebCrawler,它除具有一般WebRobot的基本功能外,还采用了一种既考虑文本重要性又考虑链接结构的URL排序方法,从而确保收集的Web页面是Web比较优秀的部分。

关 键 词:信息检索  数据挖掘  Web
文章编号:1671-654X(2005)01-0059-04
修稿时间:2004-11-27

Research on the Design and Key Techniques of Web Mining System
LIU Min-yu,XUE Hong-min. Research on the Design and Key Techniques of Web Mining System[J]. Aeronautical Computer Technique, 2005, 35(1): 59-62
Authors:LIU Min-yu  XUE Hong-min
Abstract:Web mining is a new research area and involves several research communities, such as ML, DM, IR, NLP, DB and AI. It can be used in Web retrieval, web sites construction and e-commerce etc. Based on the whole study of Web mining techniques, a general architecture of Web mining system has been presented. The techniques, research issues and resolution of each component, resource finding, information selection and preprocessing, pattern discovery and pattern analysis, are also discussed in details. This paper introduced a smart web page gather-WebCrawler which takes both the text and structure information into account and gets the excellent pages of the web.
Keywords:IR (Information Retrieval)  DM (Data Mining)  Web
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号