检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:朱登赟 万福成[1] 国旗 张东娇 于洪志[1] ZHU Dengyun;WAN Fucheng;GUO Qi;ZHANG Dongjiao;YU Hongzhi(Northwest Minzu University Key Laboratory of Linguistic and Cultural Computing Ministry of Education,Lanzhou 730030,P.R.China;Northwest Minzu University Key Laboratory of China's Ethnic Languages and Intelligent Processing of Gansu Province,Lanzhou 730030,P.R.China)
机构地区:[1]西北民族大学语言与文化计算教育部重点实验室,兰州730030 [2]西北民族大学甘肃省民族语言文化智能信息处理重点实验室,兰州730030
出 处:《中国科学数据(中英文网络版)》2025年第1期453-462,共10页China Scientific Data
基 金:国家自然科学基金(62366046);甘肃省基础研究创新群体项目(24JRRA154)。
摘 要:在旅游业高速发展背景下,潜在出行用户想在大量信息中寻找合适的旅游景点不仅耗费时间且缺乏可信度。各类旅游平台的用户评论具有很高的参考价值,本研究基于携程网提取北京部分旅游景点评论文本,通过文本爬取、文本预处理、文本情感倾向标注过程,制作了北京部分旅游景点评论文本情感数据集。实验所爬取旅游景点评论文本数据量为5万条。通过与用户在线查看旅游评论对比验证表明,本数据集具有较高可靠性。本数据集可为做旅游数据文本的情感分析提供数据支撑。With the rapid development of tourism industry,it is time-consuming and unreliable for potential travel users to sift through vast amounts of information to find suitable tourist attractions,often with little trust in the sources.User reviews on various tourism platforms are of great reference value.Based on Ctrip,this study extracted revies texts for some tourist attractions in Beijing,and produced a sentiment dataset through the process of text crawling,text preprocessing and text sentiment annotation.The dataset contains 50k samples.A comparison with online tourism reviews shows that this dataset is of high reliability and feasibility.The dataset can provide data support for sentiment analysis of tourism data texts.
关 键 词:旅游景点 情感分析 评论文本 Python爬虫技术
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.38