检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:常军林[1] 吴笑伟[1] 吴芬芬[1] 刘磊[2]
机构地区:[1]河南交通职业技术学院,河南郑州450005 [2]吉林大学计算机科学与技术学院,吉林长春130012
出 处:《河南科技大学学报(自然科学版)》2008年第2期55-57,70,共4页Journal of Henan University of Science And Technology:Natural Science
基 金:吉林省科技发展计划项目(20050527)
摘 要:基于文本分块提出一种新的文本信息抽取技术,该技术利用文本的语义特征和结构特征,抽取具有特征的状态,以此结果为基础,进一步运用改进的隐马尔可夫模型,抽取剩余的无特征状态。对美国CMU大学CORA搜索引擎研制组提供的数据集中的100篇进行测试,结果显示精确度和召回率比基于单词和传统隐马尔可夫模型的方法都有所提高,并进一步提高了效率。This paper brings forward a kind of new text information extraction technology based on text blocks.This technology utilizes the semanteme characteristic and structure characteristic of the text to make certain the states with characteristic.On the basis of this result,the remainder states of no characteristic with the improved hidden Markov models(HMMs) are extracted.This paper has tested 100 pieces of headers of computer science paper of the data provided by the search-engine research group from CMU university of USA.The result shows that the recall and precision rate are all improved a lot compared with existing methods which are based on words and traditional HMMs.
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:18.222.94.214