检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]东南大学生物电子学国家重点实验室,江苏南京210096
出 处:《电脑知识与技术》2006年第5期98-99,共2页Computer Knowledge and Technology
基 金:863资助项目(编号2002AA231071);江苏省自然科学基金资助项目(编号BK2002057).
摘 要:生物医学领域信息量的飞速增长,极大地促进了人们的交流和研究,同时也使人们在海量的信息面前无所适从:这就提出了对信息进行分类筛选的需求。词库对于文本分类的结果有着至关重要的作用,只有能实时更新新词的词库才能适应使用的需要。该文章提出并实现一种基于频繁序列的新词挖掘算法,能够正确提取出中文文本中的新词,从而及时更新维护词库,使文本分类更为准确。With the expeditious increase of biomedicine data, it not only accelerates human' s intercommunion and research, but also makes people to face the immensity data at loose ends.So there comes a requirement of classifying data. The lexicon is extraordinary important to text classification, There need a real-time-updated lexicon to fit the demand of users. This paper puts forward a new words mining method based on frequent sequence. New words can be accurately extracted from Chinese text with this method. Based on this method researchers can also update the lexicon in time and improve the text classification performance.
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.42