检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]南京航空航天大学经济与管理学院,南京210016
出 处:《现代图书情报技术》2016年第10期33-41,共9页New Technology of Library and Information Service
基 金:国家自然科学基金面上项目"基于演化本体的网络舆情自适应话题跟踪方法研究"(项目编号:71373123);江苏高校哲学社会科学研究重点项目"基于超网络的江苏教育微博舆情多元意见演化模型及应用研究"(项目编号:2015ZDIXM007);高校重大项目培育基金"基于‘模型–数据双驱动’的复杂社会网络行为大数据分析方法研究"(项目编号:NP201630X)的研究成果之一
摘 要:【目的】设计一种"特征词条本体"的自动构建及进化算法。【应用背景】热门话题产生的时间和话题演化往往是快速的,且涉及领域广泛,而现有的本体自动构建研究局限于具体领域的知识表达,无法有效地对这种动态热门话题进行本体语义支持,也不能进行有效跟踪与优化。【方法】通过对热门话题中关键事件的内容分析并由特征词组合而成的"特征词条本体"来描述热门话题的方法,设计一种快速自动生成"特征词条本体"的算法;在初始本体指导下,利用话题跟踪结果进行"特征词条本体"进化算法的设计,以满足不断更新的话题语义表述需求。【结果】针对热门话题"魏则西百度推广事件",使用爬虫工具采集11 174条新浪微博作为语料库进行实验,抽取生成拥有7 421个特征词条、39个特征词节点、781个特征词关系的初始本体,基于话题跟踪结果进化为拥有24 564个特征词条,67个特征词节点,1 818个特征词关系的进化本体,其漏报率、误报率、损耗代价分别为0.1261,0.0964,0.5985,优于TF-IDF算法。【结论】"特征词条本体"的表述方式明显比单个词汇的本体表述准确率高,且语义相似度更容易计算,比较符合动态热门话题的快速语义处理。[Objective] This paper aims to propose an algorithm to build "Feature Items Ontology". [Context] Trending topics online are constantly changing and involve extensive fields. The existing research on automatically creating Ontology is limited to specific areas, which cannot effectively process the dynamic trending topics. [Methods] First, we analyzed the contents of major events from the trending topics. Second, we designed an algorithm automatically generating the Ontology. Third, with the guidance of initial Ontology, proposed an evolutionary algorithm to track the changing topics. [Results] Using the case of "Wei Zexi and Baidu" as an example, we collected 11,174 Sina Weibo posts to conduct two rounds of experiment. We initially extracted 7,421 feature items, 39 key nodes, and 781 key relationships. For the evolutionary results, we got 24,564 feature items, 67 key nodes, and 1,818 key relations. The missing rates, the false positive rates, and the loss costs were 0.1261, 0.0964 and 0.5985, which were all better than those of the TF-IDF algorithm. [Conclusions] The "Feature Items Ontology" is more accurate than the single word Ontology description, and is easier to calculate the semantic similarity. It is an appropriate method to retrieve semantic information from the dynamic trending topics.
分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:18.216.141.19