大规模汉语词汇语义知识库的构建  被引量:2

Specification of the Large-scale Chinese Lexical Semantic Knowledge Base Building

在线阅读下载全文

作  者:石金铭 昝红英[1] 韩英杰[1] 

机构地区:[1]郑州大学信息工程学院,河南郑州450001

出  处:《山西大学学报(自然科学版)》2015年第4期581-587,共7页Journal of Shanxi University(Natural Science Edition)

基  金:国家社会科学基金(14BYY096);国家自然科学基金(61402419;61272221);国家高技术研究发展863计划(2012AA011101);国家重点基础研究发展计划973课题(2014CB340504)

摘  要:文章提出了一种基于义项相似度的自动合并算法,用于整合以现代汉语语法信息词典、现代汉语虚词用法知识库和现代汉语词典(第5版)为核心,以现代汉语语义词典和同义词词林等其他19个词典为补充的多源词典和知识库,初步的构建了大规模汉语词汇语义知识库CLSKB。自动合并算法准确率达到32.9%,大幅度地提高了合并工作的效率。CLSKB共包括核心知识库CLSKB_Core和扩展知识库CLSKB_Extended。CLSKB_Core由可信度高的资源合并得到,规模约16万条。CLSKB_Extended是扩展知识库,主要资源来自网络,用于补充核心知识库,规模约33万条。该知识库可为自然语言处理中诸多领域提供丰富的词汇语义及关系信息。An automatic merging algorithm which based on the similarity of word meaning was introduced,and a large-scale Chinese lexical semantic knowledge base(CLSKB)was initially constructed by integrating multi-source dictionaries and knowledge bases,including 3core resources(The Grammatical Knowledge base of Contemporary Chinese,Chinese Function word usage Knowledge Base,Modern Chinese Dictionary)and 19 other dictionaries.The accuracy of the merging algorithm reached 32.9%,which improved the work efficiency greatly.The CLSKB is made up of two knowledge bases:CLSKB_Core and CLSKB_Extended.CLSKB_Core(160,000entries)is made of highly reliable resources.Besides,an extended version(330,000entries)containing network resources was also built as a supplement which called CLSKB_Extended.CLSKB can provide abundant lexical semantics and relational information for various areas in natural language processing.

关 键 词:词汇语义 知识库 自然语言处理 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象