大湾区多语种政府新闻标注语料库建设研究  

Study on the Construction of Multilingual Government News Annotation Corpus in the Greater Bay Area

在线阅读下载全文

作  者:姜嬴 杨静[1] 朱哲宇 林佳莹 JIANG Ying;YANG Jing;ZHU Zheyu;LIN Jiaying(Beijing Normal University,Zhuhai,Zhuhai Guangdong,519000,China)

机构地区:[1]北京师范大学珠海分校,广东珠海519000

出  处:《文化创新比较研究》2022年第9期62-66,共5页Comparative Study of Cultural Innovation

基  金:2021年广东省科技创新战略专项(攀登计划)(项目编号:pdjh2021a0607);国家语委科研项目(项目编号:YB135-123);粤港澳大湾区国际教育示范区建设研究项目(项目编号:2020WQYB030);广州市社科规划课题(项目编号:2019GZY26);广东省哲学社会科学规划项目(项目编号:GD19CYY01)。

摘  要:粤港澳大湾区是中国开放程度最高、经济活力最强的区域之一,在“一国两制”政策实施的背景下,广东、香港、澳门地区的语言文化(普通话、粤语、英语、葡萄牙语等)呈现出了多样性状态,使得语言规则变得复杂,目前尚未存在同时支持针对粤港澳地区多语种语料文本标注和分析的语料库。该文以大湾区政府新闻语料为主要研究对象,在粤港澳大湾区复杂的语言环境背景下,通过研究经验总结出多语种语料库建设的常见问题和解决手段,构建出数据规模大、符合多语种生态的高质量语料库,促进教育、文化、语言研究事业的发展。The Guangdong-Hong Kong-Macao Greater Bay Area(GBA) is one of the most open and economically dynamic regions in China.Under the background of the One Country,Two Systems Policy,the language and culture of Guangdong,Hong Kong and Macao(Mandarin,Cantonese,English,Portuguese etc.) present a diverse state,which makes the language rules more complicated.Currently,there is no corpus that supports annotating and analysis of multilingual corpus in the GBA at the same time.Under the complex language environment,through the previous research experience,this paper summarizes the common problems and solutions of multilingual corpus construction,constructs a high-quality corpus with large data scale and in line with the multilingual ecology,promotes the development of education,culture and language research.

关 键 词:粤港澳大湾区 多语种语料库 分词标注策略 

分 类 号:G642[文化科学—高等教育学]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象