检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:罗文华[1] 李孟林[1] LUO Wen-hua;LI Meng-lin
机构地区:[1]中国刑事警察学院网络犯罪侦查系,辽宁沈阳110035
出 处:《中国刑警学院学报》2020年第2期119-123,共5页Journal of Criminal Investigation Police University of China
摘 要:针对当前主流的卷积神经网络分类模型偏重依赖训练集规模和参数的缺点,提出了基于传统N-grams模型并结合多属性特征综合计算中文短文本相似度的分析方法。首先采用N-grams模型提取词频分布和句子的语义逻辑关系特征,然后通过似然率算法求出中文短文本似然率,最后进一步结合发送时间、发送位置、发送频率、输入法等属性计算出中文短文本相似度。实验表明,采用N-grams模型并融合多属性综合计算相似度相较单纯使用N-grams,实现了对作者归属判断的更有力支撑。
关 键 词:短文本 N-GRAMS 多属性 似然率 余弦相似度
分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.80