Web文本挖掘中的一种中文分词算法研究及其实现  被引量:5

The research and implementation on a Chinese automatic word-segment algorithm in Web text mining

在线阅读下载全文

作  者:苏芳仲[1] 林世平[1] 

机构地区:[1]福州大学数学与计算机科学学院,福建福州350002

出  处:《福州大学学报(自然科学版)》2004年第z1期67-71,共5页Journal of Fuzhou University(Natural Science Edition)

基  金:福建省自然科学基金资助项目(A0110009);福州大学科技发展基金资助项目(2002-XQ-21)

摘  要:针对Web文本挖掘中的中文信息处理的问题,介绍了将超文本格式(Html格式)的文档转化为纯文本格式(Txt格式)文档的方法.利用改进的最大匹配法来实现对文档的汉语自动分词,同时,加强消除歧义方面的处理,分词精度有所提高.Introduced a method to convert html form text to txt form text, and improved the most match method to realize the Chinese automatic word-segment in text. In addition, paid great attention to dispelling ambiguity, and the accuracy improved to some extent.

关 键 词:文本挖掘 字典索引 文档格式转化 消歧 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象