检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:张青[1] 熊前兴[1] ZHANG Qing, XIONG Qian xing (Department of Computer Science and Technology,Wuhan University of Technology, Wuhan 430063, China)
机构地区:[1]武汉理工大学计算机科学与技术学院,湖北武汉430063
出 处:《电脑知识与技术》2011年第1期204-206,共3页Computer Knowledge and Technology
摘 要:文本的形式化表示一直是文本检索、自动文摘和搜索引擎等信息检索领域关注的基础性问题。向量空间模型(Vector Space Model)中的TF.1DF文本表示是该领域中得到广泛应用并且取得较好效果的一种文本表示方法。词语在文本集合中的类别分布比例量上的差异是决定词语表达文本内容的重要因素之一。但现在的TEIDF方法无法把握这一因素,针对这一缺点,将信息增益公式引入文本集合中并提出TEIDFIG文本表示方法,并比较分析了其相较于传统TF.IDF公式的优点,用实验验证了其可行性和有效性。The formalization of text is always a fundamental issue in the area of information retrieval, such as text retrieval, automatic abstract, search engine etc. The TF.IDF text representation in Vector Space Model is an efficiency and widespread used method in this area. The difference in categorical distribution proportion in text aggregate of words is one of the key factors which determine the content of words. But the present TF.IDF method cannot handle this factor. For this shortcoming, this article introduces the text information gain for- mula to text aggregate and proposes the TEIDEIG text representation method, compares and analysis its advantages to the traditional TF. IDF formula, verifies the feasibility and validity with experiments.
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.208