基于频繁关键字共现的诗词风格分类模型研究  被引量:3

Frequent Keyword Concurrence-Based Vector Space Model for Chinese Poetry Style Analysis

在线阅读下载全文

作  者:吴春龙[1] 周昌乐[1] 

机构地区:[1]厦门大学信息科学与技术学院,艺术认知与计算实验室,福建厦门361005

出  处:《厦门大学学报(自然科学版)》2008年第1期41-44,共4页Journal of Xiamen University:Natural Science

基  金:国家自然科学基金(60373080)资助

摘  要:为了提高宋词文档分类的精确性,本文在广泛采用的向量空间模型(Vector space model,VSM)的基础上,对分类算法中使用的特征项做了相应的修改,提出了频繁关键字共现的概念.在实验过程中,首先提取了宋词语料库中的关键字,再利用发现关联规则的Apriori算法发现分类时所需要的频繁关键字共现,最后结合关键字和频繁关键字共现,利用最邻近算法(KNN)对宋词文档进行风格分类.实验结果发现,结合了频繁关键字共现的VSM可以提高对宋词风格分类的准确度.可见,频繁关键字共现确实提供了风格分类中所需的更多信息.The paper presented a new concept called frequent Keyword concurrence-based vector space model(FKC-VSM).FKC-VSM had proved to be effective in promoting the accuracy of Chinese poems' style classification.Frequent keyword concurrences could be found out by one of data mining technologies called Apriori algorithm.After detecting frequent keyword concurrences,we used KNN algorithm to classify different poems' style.Combining keywords and frequent keyword concurrences,KNN algorithm performed better than that without frequent keyword concurrences.In a word,after the introduction of FKC-VSM,the results of the experiments improved.

关 键 词:文本分类 向量空间模型 FKC-VSM 最邻近算法 APRIORI算法 频繁关键字共现 

分 类 号:TP18[自动化与计算机技术—控制理论与控制工程]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象