检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:刘超超[1]
机构地区:[1]西南科技大学经济管理学院,四川绵阳621010
出 处:《济宁学院学报》2017年第5期116-119,共4页Journal of Jining University
摘 要:文本分词以及语义相似度地计算大都依赖于中文词库,而网络的飞速发展产生了很多未收录词库的新词,进而影响了分词的效果和相似度计算的准确性。针对网络时代信息爆炸和新词出现频率高的特性,提出了在大数据背景下动态更新中文词库的模型。依据大数据的特点,提出了备用词研判标准模型,进而以四个子模型为基础提出了词库动态更新模型。The chinese text participle and calculation of semantic similarity mostly depends on the Chinese thesaurus,and the rapid development of the network produces many new words that are not included in the thesaurus,which in turn affects the accuracy of word segmentation and similarity calculation. Aiming at the characteristics of the information explosion in the Internet age and the high frequency of new words,this paper proposes a model to dynamically update the Chinese thesaurus in the background of big data. Based on the characteristics of big data,this paper puts forward the model of the criterion of alternative words,and then puts forward the dynamic updating model of the thesaurus based on the four sub models.
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.3