检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:蔡华谦 刘逸豪 关天鹏 吴恺东 杨婧如 罗超然 朱小杰[4] 刘佳 黄罡 CAI Huaqian;LIU Yihao;GUAN Tianpeng;WU Kaidong;YANG Jingru;LUO Chaoran;ZHU Xiaojie;LIU Jia;HUANG Gang(National Key Laboratory of Dataspace Technology and System,Beijing 100091,China;School of Computer Science,Peking University,Beijing 100871,China;School of Software and Microelectronics,Peking University,Beijing 100871,China;Computer Network Information Center,Chinese Academy of Sciences,Beijing 100083,China)
机构地区:[1]数据空间与系统全国重点实验室,北京100091 [2]北京大学,计算机学院,北京100871 [3]北京大学,软件与微电子学院,北京100871 [4]中国科学院计算机网络信息中心,北京100083
出 处:《数据与计算发展前沿(中英文)》2024年第4期46-58,共13页Frontiers of Data & Computing
基 金:国家重点研发计划“面向国家科学数据中心的基础软件栈及系统”(2021YFF0704200)。
摘 要:【目的】科学数据的使用场景日益丰富,了解已有场景中科学数据如何使用,对科技探索与发现有很重要的启发和借鉴作用。然而,由于科学数据的场景化使用蕴藏了复杂的输入、算法和执行环境,这使得如何统一地描述数据的场景化使用成为了一个挑战。这种统一描述的缺失导致了理解和学习已有场景中的科学数据的用法变得难度大、成本高、效率低。【方法】针对数据场景化使用的统一描述缺失的问题,本文采用数据语用的概念,从超图的角度来建模数据的场景化使用,设计了面向数据语用的新型标记语言DPML(Data Pragmatics Markup Language),并提出了一套基于AI的科学数据语用的自动化提取方法。【结果】DPML可以表征多种典型的基于科学数据的场景化使用中的数据语用,同时利用上述的自动化方法,可以高效地提取出DPML。【结论】通过提出DPML及其自动化提取方法,本文实现了科学数据场景化使用中隐含的数据语用的自动化表征。通过数据以及数据之间的语用关系所形成的科学数据的语用网络蕴藏了科学数据如何使用的知识,可以促进科学数据跨学科的共享和再利用,为科学研究的深入合作与数据驱动发现开辟了新的路径。[Objective]The utilization scenarios of scientific data are becoming increasingly diverse.Grasping the manner in which scientific data is used in existing scenarios is of great inspiration and reference value for technological exploration and discovery.However,due to the complex input,algorithm,and execution environments of scientific data applications,it has become a challenge to uniformly describe the scenario-based use of data.The lack of unified description has made it difficult,costly,and inefficient to understand and learn the usage of scientific data in existing scenarios.[Methods]To address the issue of lacking a unified framework for describing data usage scenarios,this article introduces the concept of data pragmatics and employs hypergraphs to model the scenario-based utilization of data.It proposes a novel markup language tailored for data pragmatics,termed Data Pragmatics Markup Language(DPML),and suggests an AI-driven method for the automated extraction of scientific data pragmatics.[Results]DPML can characterize the data pragmatics in typical scenarios of scientific data analysis,and by using the automation methods mentioned above,DPML can be efficiently extracted.[Conclusions]By proposing DPML and its automated extraction method,this paper realizes the automated representation of implicit data pragmatics in the scenario-based scientific data usage.The pragmatic web of scientific data formed through data and the pragmatic relationships between data contains knowledge on how to use scientific data,which can promote interdisciplinary sharing and reuse of scientific data,opening up a new way for in-depth cooperation and data-driven discovery in scientific research.
关 键 词:科学数据 数据语用 标记语言 自动化提取 人工智能
分 类 号:TP311.13[自动化与计算机技术—计算机软件与理论]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:18.222.252.132