基于高斯混合模型的现代汉语构式成分自动标注方法  被引量:3

GMM-based Automatic Annotation of Chinese Constructions

在线阅读下载全文

作  者:黄海斌 常宝宝[2] 詹卫东[1,2,3] HUANG Haibin;CHANG Baobao;ZHAN Weidong(Department of Chinese Language and Literature,Peking University,Beijing 100871,China;MOE Key Laboratory of Computational Linguistics,Peking University,Beijing 100871,China;Center for Chinese Linguistics,Peking University,Beijing 100871,China)

机构地区:[1]北京大学中国语言文学系,北京100871 [2]北京大学计算语言学教育部重点实验室,北京100871 [3]北京大学中国语言学研究中心,北京100871

出  处:《中文信息学报》2020年第9期1-8,共8页Journal of Chinese Information Processing

基  金:教育部人文社科基地2015年度重大项目(15JJD740002);国家自然科学基金(61876004)。

摘  要:现代汉语构式成分自动标注作为文本自动标注任务之一,其最大的困难在于,当不存在标注语料作为训练数据时,如何从生语料中挖掘不同类型的构式成分相关的知识并进行标注,特别是面对构式序列在句中的边界难以判断的情况。该文试图借助高斯混合模型聚类方法,结合句中每一个字的位置特征与构式形式本身的语言学特征,融合正则表达式匹配结果信息,挖掘句子中的构式实例序列,并对构式内部成分进行自动标注。相较于仅基于正则表达式匹配和词性匹配的自动标注结果,该方法的F1分别至少提高了17.9%(半凝固型构式)、19.3%(短语型构式)、14.9%(复句型构式)。The paper introduces an approach to automatic annotation of Chinese constructions.Without annotated corpora as training data,it is difficult to extract the knowledge of various constructions.To address this issue,we apply the unsupervised method based on Gaussian Mixture Model,the token position features,the linguistic features of construction as well as the regular expressions to capture the structure of the instruction,especially when the boundary is hard to be identified.Comparing to the results annotated by regular expression and part-of-speech,the proposed method achieves improvements on F1 by 17.9%(for semi-concretionary constructions),19.3%(for phrasal constructions)and 14.9%(for sentential constructions).

关 键 词:现代汉语构式 自动标注 高斯混合模型 数据挖掘 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象