检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:吐尔地.托合提 维尼拉.木沙江 艾斯卡尔.艾木都拉[1]
机构地区:[1]新疆大学信息科学与工程学院,新疆乌鲁木齐830046
出 处:《中文信息学报》2017年第5期99-107,共9页Journal of Chinese Information Processing
基 金:国家自然科学基金(61562083;61262062;61262063)
摘 要:该文研究一种改进的n元递增算法来抽取文本中表达关键信息的语义串,然后用多特征融合的评价方法为每一个文本选取最重要的语义串,并用这些语义串作为特征表示文本。通过K_means聚类分析的实验结果表明,以语义串作为特征可以构造比单词特征集更紧凑的文本模型,不仅可以大大降低特征空间的维度,对于提高聚类算法性能也是非常有效的。This paper proposes an improved frequent pattern-growth approach to discover and extract the semantic strings which express key information in the text,It then assigns weights to them via a multi-feature fusion method and select the most important semantic strings as features to represent the text.The experimental results by K_means cluster shows that the text model constructed by semantic string feature is more compact than the text model constructed by word feature,not only greatly reducing the dimensions of feature space but also improving the performance of clustering algorithm.
关 键 词:维吾尔文 语义串抽取 特征评价及选取 向量空间模型 K_means
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:18.219.44.93