仅根据Proximity数据构建向量空间模型的方法  被引量:1

An Approach to Constructing Vector Space Models from Proximity Data Alone

在线阅读下载全文

作  者:徐硕[1] 乔晓东[1] 朱礼军[1] 郭怀恩[1] 

机构地区:[1]中国科学技术信息研究所,北京100038

出  处:《情报学报》2011年第11期1163-1170,共8页Journal of the China Society for Scientific and Technical Information

基  金:本研究受“十一五”国家科技支撑计划“知识组织系统的集成及服务研究与实现”(2006BAH03803)和中国科学技术信息研究所重点工作项目“汉语科技词系统建设与应用工程--新能源汽车领域完善及领域扩展”(2008KP01-3-1)资助.

摘  要:在实际应用中,许多研究对象都是抽象的,难以用某种特征向量的形式表示,这使得许多成熟的数据挖掘和机器学习方法难以被采用。不过,通常可将其转化成一个Proximity数据矩阵,使得矩阵中的元素表示两个对象间某种“比较”关系。针对该问题,本文提出仅根据Proximity数据矩阵利用多维尺度分析法(MDS)将研究对象进行向量化表示,即构建了一种向量空间模型。最后,对汉语科技词系统中的词语进行了聚类分析,结果表明,向量空间模型构建后再聚类的结果明显优于直接针对Proximity数据进行聚类分析的结果,从而验证了该方法的可行性和有效性。In real-world applications, there are lots and lots of abstract research objects that cannot be represented as feature vectors, therefore many mature data mining and machine learning methods cannot be utilized directly. Nevertheless, it is often not difficult to obtain a proximity matrix, which indicates some "comparison" relationship between objects. To overcome this problem, this study puts forward to obtain corresponding feature vectors for objects only from proximity data matrix by multidimensional scaling (MDS), that is, to construct a vector space model. Finally, the clustering analysis is conducted on words from Chinese Scientific & Technical Vocabulary System. Experimental results show that the clustering performance from vector space model construction is obviously better than that from clustering analysis directly on proximity data, which verifies the feasibility and efficiency of our approach.

关 键 词:多维尺度法 Proximity数据 向量空间模型 汉语科技词系统 聚类分析 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象