检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]四川师范大学计算机科学学院,四川成都610101 [2]可视化计算与虚拟现实四川省重点实验室,四川成都610068
出 处:《计算机工程与设计》2012年第7期2864-2867,共4页Computer Engineering and Design
基 金:全国教育科学规划项目国家青年基金课题基金项目(CCA100176);四川省教育厅科研基金项目(09ZC080)
摘 要:概念图的构建是一项复杂的工程,在概念术语提取阶段往往需要领域专家花费大量时间手工完成。随着概念图在信息处理和知识管理系统中得到日益广泛的应用,仅仅依靠领域专家来手工提取概念术语生成概念图的办法已不能满足应用需求。基于此,提出结合网络爬虫技术和LSA的方法自动提取概念术语,生成概念图的方法,可以降低概念图制作的人工复杂度,高效、准确的构建概念图,可以大大扩展概念图的应用范围。从指定网站上爬取大量领域文本资源;进行文本预处理并抽取特征项;再利用LSA挖掘特征项与特征项、特征项与文本之间的潜在语义结构,消除噪音及冗余特征项,提取概念术语。实验结果表明,结合网络爬虫技术和LSA方法能够降低概念术语的提取过程中的人力复杂度,去除冗余概念,并提高准确性。Constructing concept maps is a complex task requiring lots of domain experts' time to manually extract concept terms from the unstructured text. With the rapid growth applications of concept maps, it's obviously hard to meet the demand by rel- ying solely on the manual efforts of extracting the terms. A method of auto-extraction of terms of domain concepts is proposed by combining web crawler technology and LSA technique. Firstly, through the specific domain sites, numerous text resources are captured. Then, the texts and extracts features from them are preprocessed. Finally, it extracts the domain concept terms by e- liminating the noisy terms and redundant features through a method of LSA, which can mine the potential semantic structures between features, and those between features and texts. Experiments show that the method of the combination of web crawler technology and LSA technique can decrease the artificial complexity, remove redundant terms and improve the accuracy of the ex- traction of domain concepts terms.
关 键 词:概念图 概念术语 网络爬虫技术 潜在语义分析 特征项
分 类 号:TP182[自动化与计算机技术—控制理论与控制工程]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.225