首页 | 本学科首页   官方微博 | 高级检索  
     检索      

一种基于语义相似度的文本聚类算法
引用本文:孙爽,章勇.一种基于语义相似度的文本聚类算法[J].南京航空航天大学学报,2006,38(6):712-716.
作者姓名:孙爽  章勇
作者单位:南京航空航天大学信息科学与技术学院,南京,210016;南京航空航天大学信息科学与技术学院,南京,210016
摘    要:文本聚类在很多文本挖掘和信息检索系统中发挥着重要的作用。现有的聚类算法大多数都是基于向量空间模型,文档集合中出现的单词词频作为特征项。这些算法都存在数据维数过高、聚簇难以描述的问题,而且忽略了单词间的语义联系。本文提出了一种基于语义相似度的文本聚类算法——TCU SS(Text clustering usingsem an ticsim ilarity)算法。TCU SS算法将文档表示成概念列表,有效地解决了数据维数高和聚簇描述难的问题,并给出如何利用概念列表进行聚簇描述的方法。TCU SS算法利用两个概念列表中单词间的语义相似度作为文档间相近程度的度量,并以图为基础进行聚类分析,避免有些聚类算法对聚簇形状的限制。实验证明,TCU SS算法提高了聚类质量。

关 键 词:文本聚类  语义相似度  文本表示  语义相似度的文本聚类算法
文章编号:1005-2615(2006)06-0712-05
收稿时间:2006-07-07
修稿时间:2006-09-22

Clustering Method Based on Semantic Similarity
Sun Shuang,Zhang Yong.Clustering Method Based on Semantic Similarity[J].Journal of Nanjing University of Aeronautics & Astronautics,2006,38(6):712-716.
Authors:Sun Shuang  Zhang Yong
Abstract:
Keywords:text clustering  semantic similarity  text representation  text clustering using semantic similarity(TCUSS) algorithm
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号