首页 | 本学科首页   官方微博 | 高级检索  
     检索      

英汉专利语料中长句的分割
引用本文:张西龙,季铎,王岩,苗雪雷.英汉专利语料中长句的分割[J].沈阳航空工业学院学报,2011,28(5):67-70.
作者姓名:张西龙  季铎  王岩  苗雪雷
作者单位:沈阳航空航天大学知识工程中心,辽宁沈阳,110136
摘    要:平行语是基于语料机器翻译方法的重要资源。专利语料中存在大量长句,这给机器翻译系统学习翻译模型带来了复杂性。因此,对专利语料中长句的分割将是十分有必要的。提出了一种基于统计词对齐的专利语料中长句分割方法,将标点的对应位置作为候选分割位置有效的保留了句子的句法结构,并且使用改进后的IBM翻译模型1对分割片段进行评分,进一步保证了长句分割的正确性。翻译实验证明该方法有效地提高了翻译系统的质量。

关 键 词:句子分割  专利语料  统计对齐  翻译模型

On long sentence segmentation for C-E parallel patent corpora
ZHANG Xi-long,JI Duo,WANG Yan,MIAO Xue-lei.On long sentence segmentation for C-E parallel patent corpora[J].Journal of Shenyang Institute of Aeronautical Engineering,2011,28(5):67-70.
Authors:ZHANG Xi-long  JI Duo  WANG Yan  MIAO Xue-lei
Institution:ZHANG Xi-long,JI Duo,WANG Yan,MIAO Xue-lei(Knowledge Engineering Research Center,Shenyang Aerospace University,Liaoning Shenyang 110136)
Abstract:Parallel corpora have proved extremely useful resources for the corpus-based machine translation.It is of great necessity to segment long sentences in Chinese-English parallel patent corpora to make it easy to use translation models in corpus-based machine translation systems.This paper puts forward a new statistical alignment method of long sentence segmentation,i.e.treating positions of punctuations as candidate split points,and then evaluates the segments by modified IBM model 1 which makes sentence segm...
Keywords:sentence segmentation  patent corpus  statistical alignment  translation model  
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号