首页 | 本学科首页   官方微博 | 高级检索  
     检索      

Naive Bayes邮件过滤模型的特征词选取方法研究
引用本文:王涛,裘国永,何聚厚,张娇艳.Naive Bayes邮件过滤模型的特征词选取方法研究[J].航空计算技术,2008,38(2):131-134.
作者姓名:王涛  裘国永  何聚厚  张娇艳
作者单位:1. 陕西师范大学,计算机科学学院,陕西,西安,710062
2. 西安咸阳国际机场,机电公司,陕西,西安,712035
摘    要:将文本分类中的各种特征词选取方法引入到Naive Bayes邮件过滤模型(NBF)中,包括文档频度、信息增益、互信息、期望交叉熵、文本证据权、几率比及x2统计量.分析比较了这些方法的特点.实验结果显示在NBF中采用x2统计量选取邮件特征词有最好的效果.

关 键 词:x2统计量  特征选取  垃圾邮件过滤  朴素贝叶斯
文章编号:1671-654X(2008)02-0131-04
修稿时间:2007年4月16日

Feature Selection Methods Research in Naive Bayes Spam Filtering Model
WANG Tao,QIU Guo-yong,HE Ju-hou,ZHANG Jiao-yan.Feature Selection Methods Research in Naive Bayes Spam Filtering Model[J].Aeronautical Computer Technique,2008,38(2):131-134.
Authors:WANG Tao  QIU Guo-yong  HE Ju-hou  ZHANG Jiao-yan
Abstract:The feature selection methods of Text Categorization are introduced into Naive Bayes Filtering(NBF) model in Spam Filtering,including document frequency,information gain,mutual information,expected cross entropy,weight of evidence for text,odds ratio,and x2 statistics(CHI).Characteristic of these methods are evaluated and analyzed.The test results demonstrate that x2 statistics is superior to other methods.
Keywords:x2 statistics(CHI)  feature selection  spam filtering  naive bayes  
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号