支持语义标注的办公文档格式扩展方法  

An office document format extension method supporting semantic annotation

在线阅读下载全文

作  者:范博珩 李宁[1] 田英爱[1] FAN Boheng;LI Ning;TIAN Yingai(Computer School,Beijing Information Science&Technology University,Beijing 100101,China)

机构地区:[1]北京信息科技大学计算机学院,北京100101

出  处:《北京信息科技大学学报(自然科学版)》2022年第6期1-8,25,共9页Journal of Beijing Information Science and Technology University

基  金:国家自然科学基金资助项目(61672105)。

摘  要:在深入研究办公文档格式特殊性的基础上,借鉴超文本标记语言(hypertext markup language,HTML)的主流语义元数据标识方法,为OOXML(office open XML)设计了一套文档格式扩展方法以及语义标注规则,使得办公文档中允许以规范的方式加入语义标记;此外,提出了一种预处理和后处理方法,使得现有办公软件无需进行修改就能读入、编辑和保存带有语义标记的办公文档。该项研究可为文档分类、文档的信息检索和信息提取等任务提供良好的基础。On the basis of an in-depth study of office document formats,the mainstream semantic metadata identification method of hypertext markup language(HTML)was drawn,and a set of semantic annotation rules were proposed for OOXML(office open XML),allowing semantic metadata to be added to office documents in a standardized way.In addition,pre-processing and post-processing methods were presented to enable existing office software to read,edit,and save office documents with semantic markup without modification.This research can provide a good foundation for tasks such as office document classification,office document information retrieval and information extraction.

关 键 词:文档格式 语义标注 嵌入式标注方法 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象