检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:杨泉[1] YANG Quan(College of Chinese Language and Culture,Beijing Normal University,Beijing 100875,China)
出 处:《重庆理工大学学报(自然科学)》2021年第7期125-130,共6页Journal of Chongqing University of Technology:Natural Science
基 金:国家语委科研项目(YB135-91)。
摘 要:提出了一种基于随机森林的N1+N2结构语法关系分类判定方法,在自建熟语料库的基础上,为每个短语结构建立用于分类决策树的7个特征,使用C4.5方法生成决策树,构造随机森林算法,通过投票原则给出最终判断结果。经训练集学习后,在含有1 020条语料的测试集中进行测试,正确率达到94.8%。结果表明:使用随机森林算法进行汉语短语结构语法关系分类判定是行之有效的。Judging the grammatical relation of phrase structure is a bottleneck problem in natural language processing,which can be attributed to the classification problem in machine learning.Based on the self-built corpus,a classification and judgment method of N1+N2 structural grammatical relations based on random forest is proposed.Five features are randomly selected from the feature set as the judgment criteria,and 21 decision trees are used as the final judgment result.After learning the training set,the test is carried out in a test set containing 1020 corpus,and the final test result accuracy reaches 94.8%.The results show that it is effective to use random forest algorithm to classify and judge the grammatical relations of Chinese phrase structures.
关 键 词:随机森林 决策树 短语层级 语法关系 词义相似度 人工智能
分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:3.22.98.193