中文社区问答中问题答案质量评价和预测  被引量:27

Quality Evaluation and Prediction for Question and Answer in Chinese Community Question Answering

在线阅读下载全文

作  者:李晨[1] 巢文涵[1] 陈小明[1] 李舟军[1] 

机构地区:[1]北京航空航天大学计算机学院,北京100191

出  处:《计算机科学》2011年第6期230-236,共7页Computer Science

基  金:国家自然科学基金项目(90718017);教育部高等学校博士学科点专项基金(20070006055)资助

摘  要:知识共享型网站为自动问答系统带来了新的研究契机。但用户提供的问题及其答案质量参差不齐,在提供有用信息的同时可能包含各种无关甚至恶意的信息。对此类信息进行判别和过滤,并选取高质量的问题与答案对,有助于在基于社区的自动问答系统中重用相关问题的答案以提高问答系统的服务质量。首先从中文社区问答网站上抓取大量问题及答案,利用社会网络的方法对提问者和回答者的互动关系及特点进行了统计与分析。然后基于给定的问答质量判定标准,对3000多个问题及其答案进行了人工标注。并通过提取文本和非文本两类特征集,利用机器学习算法设计和实现了基于特征集的问答质量分类器。试验结果表明其精度和召回率均在70%以上。最后分析了影响社区网络中问答质量的主要因素。The rise of Knowledge-sharing platform on the Internet in China provides a new approach for Automatic Question Answering.However,the quality of User-Generated Content in such social networks may vary significantly,from useless information to malice spam.Identifying and filtering such content are particularly important to improve users' experience and the performance of Question Answering System.We first extracted a set of question answer content from Chinese Community Question Answering site,investigated a series of statistic characteristics on the interaction of participants,and then manually annotated quality of a subset of these questions and answers.By combining text features and non-text features provided by the community extracted from those questions and answers,we established a content quality classification model for evaluation and prediction.We find that this model is able to distinguish high-quality ones from others with considerable accuracy.

关 键 词:社区问答 社会网络 机器学习 问题答案质量评价和预测 人工标注 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象