Web藏文文本资源挖掘与利用研究  被引量:6

Mining Tibetan Web Text Resources and Its Application

在线阅读下载全文

作  者:刘汇丹[1,2] 诺明花[1,2] 马龙龙[1] 吴健[1] 贺也平[1] 

机构地区:[1]中国科学院软件研究所,北京100190 [2]中国科学院大学,北京100049

出  处:《中文信息学报》2015年第1期170-177,共8页Journal of Chinese Information Processing

基  金:国家自然科学基金(61202219;61202220;61303165);中国科学院信息化专项经费资助(XXH12504-1-10)

摘  要:该文结合链接分析技术和藏文编码识别技术,使用网络爬虫实现对互联网上藏文文本资源的挖掘,分析了Web藏文文本资源的分布情况。统计数据显示,国内藏文网站50%以上在青海省;约87%的藏文网页集中分布在31个大型网站中;人们正在逐步弃用旧有藏文编码,使用Unicode编码来制作网页。利用HTML标记、栏目归属、标点符号等自然标注信息对这些文本进行抽取,可以构建篇章语料和文本分类语料,可以抽取互联网藏文词库,进行词频统计和训练藏文语言模型,结合双语词典和搜索引擎技术抽取双语平行语料。这些语料可用于藏文分词、命名实体识别、信息检索、统计机器翻译等研究领域。Based on link analysis and Tibetan encoding detection, this paper focuses on mining the Tibetan text re sources over the internet with a crawler, and analyzes the distribution of Tibetan text. Statistical data shows that, more than 50% inland Tibetan web sites are hold by organizations in Qinghai province, and about 87% web pages belong to 31 large web sites. People prefer to use Unicode as the encoding of their new web pages rather than legacy encodings. It is practical to to extract Tibetan text from the pages with the natural tag information, such as HTML elements, column information and punctuations. The text can be used to build raw corpus, text classification cor- pus, and internet word/phrase corpus and so on. Word frequency statistics and language model can also be derived. In addition, some bilingual corpus can also be extracted.

关 键 词:WEB 语料 文本挖掘 信息抽取 藏文信息处理 中文信息处理 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象