基于文档标引图模型的文本相似度策略  被引量:4

Document Similarity Strategy Based on Document Index Graph Model

在线阅读下载全文

作  者:高茂庭[1] 王正欧[2] 

机构地区:[1]上海海事大学计算机科学与工程系,上海200135 [2]天津大学系统工程研究所,天津300072

出  处:《计算机工程》2008年第7期19-22,共4页Computer Engineering

基  金:国家自然科学基金资助项目(60275020);上海市教委科研基金资助项目(06FZ007);上海海事大学重点学科建设基金资助项目(XL0101)

摘  要:文档标引图是一种基于短语的图结构文本特征表示模型,能更加全面、准确地表达文本特征信息,实现渐增的文本聚类和信息处理。该文基于文档标引图特征模型,提出文档相似度计算加法策略和乘法策略,采用变换函数对文档相似度值进行调整,增强文档之间的可区分性,改进文本聚类和分类等处理的性能,实例证明了策略的有效性。Document Index Graph(DIG) is a kind of phrase-based graph structure text feature representation model, which is able to express text feature information more completely and exactly to realize incremental text clustering and information processing. Based on DIG, document similarity additive and multiplicative strategy are proposed, document similarity is adjusted by a set of transform function, distinguishability between documents is strengthened, and performance of text clustering and classification are improved. Experiments demonstrate the efficiency of the methods.

关 键 词:文本聚类 文档标引图 文本相似度 文本特征模型 

分 类 号:TP311.13[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象