检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]西南民族大学计算机科学与技术学院,四川成都610041 [2]四川师范大学数学与软件科学学院,四川成都610066
出 处:《四川师范大学学报(自然科学版)》2010年第4期554-558,共5页Journal of Sichuan Normal University(Natural Science)
基 金:国家自然科学基金(60603009);四川省重点科技攻关基金(05SG022-016);四川省教育厅自然科学重点基金(09ZA100)资助项目
摘 要:相似性文献检测技术在数字图书馆、知识产权保护等应用中有着较强的实际意义和应用价值.汉语中存在着许多歧义现象,导致汉语相似性文献检测的难度远大于英文文献.结合汉语的特点,提出了一种改进的基于词频统计的汉语相似性文献检测方法.首先,利用关键词和统计信息进行切词与消歧.其次,在语义分析的基础上抽取特征词并计算权重.最后,通过构造加权词频向量空间完成相似性检测.对本科生毕业论文的小规模实验表明:该方法能有效消除切分歧义,降低运算规模,提高检测精度与速度.The technology of Chinese documents similarity detection has a great practical significance and application value in the fields of digital libraries, intellectual property protection and other applications. There are many ambiguities in Chinese. This leads to the fact that Chinese documents similarity detection is more difficult than that of English. With Chinese characteristics, an improved method is provided to detect the similarity of Chinese documents based on word frequency statistics.
关 键 词:语义分析 相似度 切分歧义 汉语文献 特征提取 加权词频
分 类 号:TP181[自动化与计算机技术—控制理论与控制工程]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:18.225.92.18