基于CRFs模型的敏感话题识别研究  被引量:4

Sensitive topic detection based on conditional random fields

在线阅读下载全文

作  者:翟东海[1,2] 聂洪玉[1] 崔静静[1] 杜佳[1] 

机构地区:[1]西南交通大学信息科学与技术学院,成都610031 [2]西藏大学工学院,拉萨850000

出  处:《计算机应用研究》2014年第4期993-996,共4页Application Research of Computers

基  金:国家语委"十二五"科研规划资助项目(YB125-49);国家教育部科学技术研究重点资助项目(212167);中央高校基本科研业务费专项资金科技创新资助项目(SWJTU12CX096);国家级大学生创新创业训练计划资助项目(201210694017)

摘  要:条件随机场(CRFs)是一种判别式概率无向图学习模型,将其引入敏感话题识别中,提出了基于CRFs模型的敏感话题识别方法。将随机挑选出的一篇待检测文本s和剩余的待检测文本分别作为CRFs模型的观察序列和状态序列来计算文本s和其余待检测文本间的相关性概率值;然后将相关性最高的那篇文本和文本s合并表征一个类别;同时,将相关性最低的那篇文本作为另一个类别,将这两个类别作为CRFs模型新的状态序列,剩余的待检测文本作为新的观察序列进行迭代,据此实现敏感话题的识别。在数据集上进行的实验中,该方法的耗费函数的值为0.01943,宏平均F度量的值为0.8235,都取得了很好的效果。This paper introduced the conditional random field(CRFs) to construct the sensitive topic detection method based on CRFs. Firstly, the method used a text s selected randomly as observing sequence of CRFs, and used the rest of detected text as its state sequence to calculate the correlative probabilities between the text s and the rest of detected text. Secondly, it combined the text with the highest correlative probability and text s to represent a category, meanwhile, the text with lowest correlative probability was represented other category. Therefore, these tow categories were as observing sequence of CRFs, and the rest of detected text were used as its state sequence. Thirdly, it carried out the iteration as abovementioned to detect sensitive topic. The experimental results show that the cost function and macro average F of the proposed method can achieve high effect.

关 键 词:条件随机场 敏感话题识别 相关性概率值 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象