利用类别引导词的投诉文本分类  被引量:1

Complaint Text Classification Based on Guiding Words

在线阅读下载全文

作  者:胡菊香[1] 吕学强[1] 刘克会[2,3] 

机构地区:[1]北京信息科技大学网络文化与数字传播北京市重点实验室,北京100101 [2]北京理工大学管理与经济学院,北京100081 [3]北京城市系统工程研究中心,北京100035

出  处:《现代图书情报技术》2015年第7期97-103,共7页New Technology of Library and Information Service

基  金:国家自然科学基金项目“基于本体的专利自动标引研究”(项目编号:61271304);北京市教委科技发展计划重点项目暨北京市自然科学基金B类重点项目“面向领域的互联网多模态信息精准搜索方法研究”(项目编号:KZ201311232037);北京市科学技术研究院创新工程项目“面向智慧城市的公共设施协同管理关键技术研究”(项目编号:PXM2014_17825_000002)的研究成果之一

摘  要:【目的】针对投诉事件文本具有信息量大、非结构化、规律性不强等特点,当前城市投诉信息管理亟需寻找一种高效的分类方法,提高管理人员的工作效率。【方法】分析投诉事件特点进而对其进行文本预处理;借助句法分析器、同义词林,并通过文档贡献度过滤引导词;采用TF-IDF计算引导词权重系数,并以VSM表示,最后通过SVM对处理后的投诉事件文本进行分类。【结果】在多个类别投诉事件测试文本中,该方法查准率和查全率平均值达到82.1%和82.3%。【局限】投诉事件文本的稀疏性在一定程度上影响分类结果。【结论】实验证明该方法在投诉事件文本分类中是有效的、可行的,能够提高投诉文本分类效果。[Objective] For complaint text has the characteristics of informative, unstructured, weak regularity etc., the current information management of city complaint needs an efficient classification method to improve the efficiency of the management staff. [Methods] Analyze the characteristics of complaints and go for text preprocessing; Then use the parser, synonyms forest, and through the contribution of the document to filter guide word; At last, calculate the guide word weighting coefficients with TF-IDF, use VSM model to represent guide words and use SVM model to classify the complaint text. [Results] In multiple categories of complaint text, the average precision of the method is up to 82.1% and the average recall is up to 82.3%. [Limitations] The sparsity of complaint text affects the classification results to a certain extent. [Conclusions] The experiment results show that the method is effective and feasible in the text classification of complaints, and it can improve categorization effect of the complaint text.

关 键 词:投诉事件 文本分类 引导词 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象