一种识别和检测人工智能生成文本的算法  

An Artificial Intelligence-generated Text Recognition and Detection Method

在线阅读下载全文

作  者:王雨欣 刘柯飞 李雪莲 王红军 WANG Yuxin;LIU Kefei;LI Xuelian;WANG Hongjun(College of Information Science and Engineering,Hohai University,Changzhou 213200,China;Guangling College of Yangzhou University,Yangzhou 225000,China;College of Electronic Engineering,National University of Defense Technology,Hefei 230031,China)

机构地区:[1]河海大学信息科学与工程学院,江苏常州213200 [2]扬州大学广陵学院,江苏扬州225000 [3]国防科技大学电子对抗学院,合肥230031

出  处:《电讯技术》2025年第3期378-384,共7页Telecommunication Engineering

基  金:国家自然科学基金面上项目(61971473)。

摘  要:针对目前人工智能(Artificial Intelligence,AI)生成文本的滥用导致的学术不端、侵犯版权、隐私保护和舆情监控等问题,提出了一种基于自然语言处理的AI生成文本的识别和检测算法。该算法首先采用Word2vec方法中的连续词袋模型将文本词转换成词向量,并将词向量累加获得文本向量。随后利用softmax函数获取文本向量的概率分布,通过统计可视化分析AI生成文本的基本规律,并采用余弦相似性来判断文本类型。其次采用支持向量机递归特征消除算法判断文本是否由AI生成,通过K-近邻算法对文本重生成次数进行判断,进一步细化了文本检测的粒度。通过仿真实验验证了算法的有效性,结果显示算法识别准确率达80%及以上。To address such issues as academic dishonesty,copyright infringement stemming,privacy protection and public opinion monitoring from the misuse of artificial intelligence(AI)-generated texts,an recognition and detection algorithm based on natural language processing(NLP)is proposed.This algorithm initially converts words into vectors using the continuous bag-of-words(CBOW)model within Word2vec,and accumulates them into text vectors.It then applies softmax to address their probability distribution,analyze the fundamental patterns of AI-generated texts with statistical visualization,and determin the type of text by using cosine similarity.Next,a support vector machine recursive feature elimination(SVM-RFE)is used to determine whether the text is generated by AI.For AI-generated texts,the K-nearest neighbor(KNN)algorithm estimates the extent of AI involvement,further refining the granularity of text detection.Finally,simulation experiments show the algorithm s effectiveness with recognition accuracy of 80%or above.

关 键 词:AI生成文本检测 文本向量 余弦相似性 支持向量机(SVM) K-近邻(KNN)算法 

分 类 号:TP181[自动化与计算机技术—控制理论与控制工程]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象