首页 | 本学科首页   官方微博 | 高级检索  
     检索      

一种基于N元语法分布的语言模型自适应方法
引用本文:尹继豪,姜志国,樊孝忠.一种基于N元语法分布的语言模型自适应方法[J].北京航空航天大学学报,2008,34(11):1276-1279.
作者姓名:尹继豪  姜志国  樊孝忠
作者单位:1. 北京航空航天大学 宇航学院, 北京 100191;
2. 北京理工大学 计算机科学技术学院, 北京 100081
基金项目:教育部博士点基金资助项目
摘    要:N元语法分布能恰当地描述语料库的特性,为了有效利用普通领域训练数据,提出一种基于N元语法分布的语言模型自适应方法.该方法定义一个小的领域内的高质量种子集和一个大的普通领域的质量不稳定的训练集,将训练集的N元语法分布自适应到和种子集的N元语法分布相似,以更好地进行特定领域单词识别.实验结果表明,基于N元语法分布的语言模型自适应方法可以使单词困惑度和词错误率分别比传统的简单插值法降低11.1%和6.9%.

关 键 词:N元语法分布  种子集  训练集  自适应
收稿时间:2007-11-29

Statistical language model adaptation based on N-gram distribution
Yin Jihao,Jiang Zhiguo,Fan Xiaozhong.Statistical language model adaptation based on N-gram distribution[J].Journal of Beijing University of Aeronautics and Astronautics,2008,34(11):1276-1279.
Authors:Yin Jihao  Jiang Zhiguo  Fan Xiaozhong
Institution:1. School of Astronautics, Beijing University of Aeronautics and Astronautics, Beijing 100191, China;
2. School of Computer Science and Technology, Beijing Institute of Technology, Beijing, 100081, China
Abstract:N-gram distribution can represent the characters of corpus correctly.So an approach was proposed for statistical language modeling adaptation,which is based on N-gram distribution.Given a large set of out-of-task training data,called training set,and a small set of task-special training data,called seed set,one statistical language modeling was adapted towards the special domain by adjusting the N-gram distribution in the training set to that in the seed set.The experiment results show prominent improvement...
Keywords:N-gram distribution  seed set  training set  adaptation  
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《北京航空航天大学学报》浏览原始摘要信息
点击此处可从《北京航空航天大学学报》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号