基于频繁序列的新词挖掘算法  

A New Words Mining Method based on Frequent Sequence

在线阅读下载全文

作  者:周俊[1] 孙啸[1] 

机构地区:[1]东南大学生物电子学国家重点实验室,江苏南京210096

出  处:《电脑知识与技术》2006年第5期98-99,共2页Computer Knowledge and Technology

基  金:863资助项目(编号2002AA231071);江苏省自然科学基金资助项目(编号BK2002057).

摘  要:生物医学领域信息量的飞速增长,极大地促进了人们的交流和研究,同时也使人们在海量的信息面前无所适从:这就提出了对信息进行分类筛选的需求。词库对于文本分类的结果有着至关重要的作用,只有能实时更新新词的词库才能适应使用的需要。该文章提出并实现一种基于频繁序列的新词挖掘算法,能够正确提取出中文文本中的新词,从而及时更新维护词库,使文本分类更为准确。With the expeditious increase of biomedicine data, it not only accelerates human' s intercommunion and research, but also makes people to face the immensity data at loose ends.So there comes a requirement of classifying data. The lexicon is extraordinary important to text classification, There need a real-time-updated lexicon to fit the demand of users. This paper puts forward a new words mining method based on frequent sequence. New words can be accurately extracted from Chinese text with this method. Based on this method researchers can also update the lexicon in time and improve the text classification performance.

关 键 词:分词 文本分类 频繁序列 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象