检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]中国科学院测量与地球物理研究所,湖北武汉430077
出 处:《四川大学学报(工程科学版)》2004年第3期97-100,共4页Journal of Sichuan University (Engineering Science Edition)
基 金:国家自然科学基金资助项目(40274058)
摘 要:文本主题自动提取是一种很有实用价值的技术,它可以有效地浓缩整个web页面,解决无线网络终端由于显示屏太小而无法显示整个网页的难题。总结了目前有关文本主题提取方面的研究成果,设计了一个特征词加权函数,在此函数中考虑了词所跨的段落数因子,同时采用非线性函数描述词长因子和词所跨的段落数因子的作用,并将加权函数应用于主题自动提取。实现了一个中文主题自动提取系统原型,通过对文本集的测试验证了加权函数的有效性。Automatic subject extracting is a useful technique. It can extract the subject signature words from Web page text when the wireless terminal cannot show the full Web page because of small display screen. This paper summarized the related researches on automatic subject extracting, and designed a weighting function by considering the factor of number of the paragraphs covering the signature word. Meanwhile, non-linear functions were put forward to analyze the action of word length and number of paragraphs covering the signature word. The applications to the automatic subject extracting and the tests on a set of tests show that the weighting function is effective.
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.185