一种领域语料驱动的句子相关性计算方法研究  

Study on Domain-corpus Driven Calculation Method of Sentence Relevance

在线阅读下载全文

作  者:李峰[1,2] 黄金柱[3] 李舟军[1] 杨伟铭[2] 

机构地区:[1]北京航空航天大学软件开发环境国家重点实验室,北京100191 [2]中国人民解放军后勤科学研究所,北京100166 [3]中国人民解放军外国语学院语言工程系,洛阳471003

出  处:《计算机科学》2016年第5期188-192,208,共6页Computer Science

基  金:国家自然科学基金项目(61170189,61370126);高等学校博士学科点专项科研基金(20111102130003);软件开发环境国家重点实验室自选课题(SKLSDE-2013ZX-19)资助

摘  要:句子相关性计算在自然语言处理的多个实践应用中均具有十分重要的作用,如舆情监测、信息检索、统计机器翻译等。在明确相似性与相关性之间的关系之后,设计了一种基于领域语料驱动的句子相关性计算方法,该方法基于同一领域的语料构建一个"句-段-篇"3层的领域语义空间,通过度量词语在各个层级间的共现概率、共现平均距离和句长等因子来测量词间的主题相关性。与基于字面特征、HowNet和同义词词林的方法进行了实验对比,结果表明该方法具有较好的实践应用价值。Sentence relevance calculation plays a very important role in various fields of NLP,such as public opinion monitoring,information retrieval and statistical machine translation(SMT)etc.This paper,after a clear definition of relationship between similarity and relevance,designed a domain-specific corpus-driven calculation model of sentence relevance.The model applies the linguistic data of the same domain to construct a"sentence-paragraph-article"three-level domanial semantic space.The topic relevance of words can be figured out through calculating different factors of various levels such as co-occurrence probability,co-occurrence average distance and sentence length etc.The paper made comparative experiments between the model and methods based on literal features,HowNet and Tongyici Cilin respectively and the results show that this model has great practical value.

关 键 词:句子相关度 语料驱动 主题相关性 计算模型 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象