基于最大熵模型的汉语标点句缺失话题自动识别初探  被引量:4

Automatic recognition of the absent topics in Chinese punctuation clauses based on maximum entropy model

在线阅读下载全文

作  者:卢达威[1] 宋柔[2] 

机构地区:[1]北京大学中国语言文学系,北京100871 [2]北京语言大学语言信息处理研究所,北京100083

出  处:《计算机工程与科学》2015年第12期2282-2293,共12页Computer Engineering & Science

基  金:国家自然科学基金资助项目(61171129);国家973计划资助项目(2014CB340502)

摘  要:本文的任务是判别标点句缺失话题是上句的主语还是宾语,将该任务作为标点句缺失话题自动识别研究的切入点。首先归纳了判别这一任务的一系列字面特征和语义特征,然后结合规则和最大熵模型,进行自动判别实验。结果显示,对特定类别动词的实验F值达到82%。对实验结果的分析说明,动词特征和语义特征对判别该任务的作用最大,规则方法和统计方法在判别任务中不能偏废,精细化的知识对判别的性能有重要影响。We focus on the task of the automatic recognition, which identify whether an absent topic of a punctuation clause is the subject or object of its previous sentence. We regard this task as the pointcut of the automatic recognition of absent topics in Chinese punctuation clauses. Several literal features and semantic features are summerized to achieve this task by combining the rules and the maximum en- tropy model. Experimental results show that F-score of this recognition approach reaches 82% for the samples of some specific verbs. Experimental results analysis shows that verb features and semantic features play the most important role in the recognition process; neither rules nor statistics can be neglected, and refined knowledge has great influence on the performance of the recognition .

关 键 词:广义话题结构 新支话题 自动识别 最大熵模型 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象