针对北京旅游景点的评论文本情感标注数据集  

A dataset of sentiment annotation the review texts for Beijing tourist attractions

在线阅读下载全文

作  者:朱登赟 万福成[1] 国旗 张东娇 于洪志[1] ZHU Dengyun;WAN Fucheng;GUO Qi;ZHANG Dongjiao;YU Hongzhi(Northwest Minzu University Key Laboratory of Linguistic and Cultural Computing Ministry of Education,Lanzhou 730030,P.R.China;Northwest Minzu University Key Laboratory of China's Ethnic Languages and Intelligent Processing of Gansu Province,Lanzhou 730030,P.R.China)

机构地区:[1]西北民族大学语言与文化计算教育部重点实验室,兰州730030 [2]西北民族大学甘肃省民族语言文化智能信息处理重点实验室,兰州730030

出  处:《中国科学数据(中英文网络版)》2025年第1期453-462,共10页China Scientific Data

基  金:国家自然科学基金(62366046);甘肃省基础研究创新群体项目(24JRRA154)。

摘  要:在旅游业高速发展背景下,潜在出行用户想在大量信息中寻找合适的旅游景点不仅耗费时间且缺乏可信度。各类旅游平台的用户评论具有很高的参考价值,本研究基于携程网提取北京部分旅游景点评论文本,通过文本爬取、文本预处理、文本情感倾向标注过程,制作了北京部分旅游景点评论文本情感数据集。实验所爬取旅游景点评论文本数据量为5万条。通过与用户在线查看旅游评论对比验证表明,本数据集具有较高可靠性。本数据集可为做旅游数据文本的情感分析提供数据支撑。With the rapid development of tourism industry,it is time-consuming and unreliable for potential travel users to sift through vast amounts of information to find suitable tourist attractions,often with little trust in the sources.User reviews on various tourism platforms are of great reference value.Based on Ctrip,this study extracted revies texts for some tourist attractions in Beijing,and produced a sentiment dataset through the process of text crawling,text preprocessing and text sentiment annotation.The dataset contains 50k samples.A comparison with online tourism reviews shows that this dataset is of high reliability and feasibility.The dataset can provide data support for sentiment analysis of tourism data texts.

关 键 词:旅游景点 情感分析 评论文本 Python爬虫技术 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术] F592.7[自动化与计算机技术—计算机科学与技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象