一种基于N元语法分布的语言模型自适应方法 Statistical language model adaptation based on N-gram distribution期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

按检索

一种基于N元语法分布的语言模型自适应方法

引用本文：	尹继豪,姜志国,樊孝忠.一种基于N元语法分布的语言模型自适应方法[J].北京航空航天大学学报,2008,34(11):1276-1279.

作者姓名：	尹继豪姜志国樊孝忠

作者单位：	1. 北京航空航天大学宇航学院, 北京 100191; 2. 北京理工大学计算机科学技术学院, 北京 100081

基金项目：	教育部博士点基金资助项目

摘要：	N元语法分布能恰当地描述语料库的特性,为了有效利用普通领域训练数据,提出一种基于N元语法分布的语言模型自适应方法.该方法定义一个小的领域内的高质量种子集和一个大的普通领域的质量不稳定的训练集,将训练集的N元语法分布自适应到和种子集的N元语法分布相似,以更好地进行特定领域单词识别.实验结果表明,基于N元语法分布的语言模型自适应方法可以使单词困惑度和词错误率分别比传统的简单插值法降低11.1%和6.9%.
关键词：	N元语法分布种子集训练集自适应
收稿时间：	2007-11-29
Statistical language model adaptation based on N-gram distribution

Yin Jihao,Jiang Zhiguo,Fan Xiaozhong.Statistical language model adaptation based on N-gram distribution[J].Journal of Beijing University of Aeronautics and Astronautics,2008,34(11):1276-1279.

Authors:	Yin Jihao Jiang Zhiguo Fan Xiaozhong

Institution:	1. School of Astronautics, Beijing University of Aeronautics and Astronautics, Beijing 100191, China; 2. School of Computer Science and Technology, Beijing Institute of Technology, Beijing, 100081, China

Abstract:	N-gram distribution can represent the characters of corpus correctly.So an approach was proposed for statistical language modeling adaptation,which is based on N-gram distribution.Given a large set of out-of-task training data,called training set,and a small set of task-special training data,called seed set,one statistical language modeling was adapted towards the special domain by adjusting the N-gram distribution in the training set to that in the seed set.The experiment results show prominent improvement...

Keywords:	N-gram distribution seed set training set adaptation
本文献已被 CNKI 维普万方数据等数据库收录！
	点击此处可从《北京航空航天大学学报》浏览原始摘要信息
	点击此处可从《北京航空航天大学学报》下载免费的PDF全文

设为首页 | 免责声明 | 关于勤云 | 加入收藏