胡俊峰

作品数:8被引量:64H指数:4
导出分析报告
供职机构:北京大学更多>>
发文主题:文档语料库信息检索唐宋诗词典编纂更多>>
发文领域:自动化与计算机技术语言文字自然科学总论经济管理更多>>
发文期刊:《中文信息学报》《中国标准化》《语言文字应用》《北京大学学报(自然科学版)》更多>>
所获基金:国家自然科学基金国家重点基础研究发展计划国家高技术研究发展计划国家社会科学基金更多>>
-

检索结果分析

署名顺序

  • 全部
  • 第一作者
结果分析中...
条 记 录,以下是1-8
视图:
排序:
基于历时语料库的在线词典编纂系统设计被引量:1
《中文信息学报》2020年第5期27-35,共9页吴先 胡俊峰 
国家自然科学基金(61472017)
语料库语言学是借助大规模语料库对语言现象进行发现、挖掘的学科,目前已经存在很多在线语料库辅助语言学的研究。该文提供了一个按时间分片进行管理的语料库,并基于此提出了一个由社区维护的在线词典编纂系统,该系统将语料库查询结果...
关键词:词典编纂 历时语料库 系统设计 词义发现 
基于多译文的中文转述语料库建设及转述评价方案被引量:4
《中文信息学报》2018年第12期67-75,共9页阮翀 施文娴 李岩昊 翁伊嘉 胡俊峰 
国家自然科学基金(61472017)
转述语料是转述现象研究的基础。针对目前学术界中文转述语料稀缺的现状,该文以《简爱》的多个中文译本为基础,通过句对齐得到五万句级别的平行转述语料(1)。使用无监督的小句对齐和词对齐算法,从语料中挖掘到九千多对词汇转述知识。同...
关键词:转述知识挖掘 转述评价指标 转述语料库建设 
一种基于领域本体的稿件—审阅人相关度度量方法被引量:1
《中文信息学报》2017年第2期163-168,共6页肖刘明镜 周志 邹小军 胡俊峰 
国家自然科学基金(M1321005);国家自然科学基金(61472017)
随着稿件数量的不断增长,审阅人指派越来越成为会议组织者、期刊编辑和基金委员会的一项费时费力的工作,计算机辅助审阅人指派研究也由此得到了更多的关注。稿件—审阅人相关度度量是该研究中的一个重点问题。该文设计了一种基于领域本...
关键词:审阅人指派 相似度计算 领域本体 信息检索 
《红楼梦》中社会权势关系的提取及网络构建被引量:12
《中文信息学报》2015年第5期185-193,203,共10页陈蕾 胡亦旻 艾苇 胡俊峰 
国家自然科学基金(M1321005);国家自然科学基金(61472017)
社会地位与权势的研究一直是社会语言学领域的一个热点话题。该文借助数据挖掘中的关系提取方案雪球算法(Snowball Algorithm),实现了《红楼梦》文本中候选的特征语言模式(pattern)和人物关系对之间的相互定位与赋权,对小说中频繁同现...
关键词:关系提取 权势关系 社会关系网络 最小树形图 
基于互联网产业社区分析的标准化体系研究被引量:2
《中国标准化》2012年第3期83-88,共6页胡俊峰 邹小军 陈玉忠 任冠华 
质检公益性行业科研专项"国家标准的优化技术与方法研究"(课题编号:200910292-3);模式识别国家重点实验室开放课题基金的资助
随着信息化的深入,国民经济的各关键产业的信息及相关联系都可以在互联网上得到反映。如果能对互联网上海量数据进行采集和分析,必能对产业规律的发现和产业政策的制定提供重要辅助作用。本文提出了互联网产业社区的概念,并通过两个基...
关键词:复杂网络 产业社区 社区发现 标准化 
基于散列技术的快速子串归并算法被引量:4
《复旦学报(自然科学版)》2004年第5期948-951,955,共5页吕学强 张乐 黄志丹 胡俊峰 
国家"八六三"高技术研究发展计划项目资助(2001AA114019;2001AA114210;2002AA117010-08);国家自然科学基金资助项目(60083006);国家"九七三"重点基础研究发展规划项目(G19980305011)
用统计方法研究东西方语言的多词单元问题和东方语言的未登录词问题时需要删除同频子串(子串归并).传统的子串归并算法时间复杂度为O(n2),在大规模语料库的处理中效率低下.提出一种基于散列技术的时间复杂度为O(n)的子串归并算法,并用...
关键词:归并 散列 算法 时间复杂度 大规模 删除 语料库 法能 处理 东西方 
信息科学与技术领域术语部件描述被引量:16
《语言文字应用》2003年第4期34-39,共6页吴云芳 穗志方 邱利坤 宋作燕 胡俊峰 
国家项目"信息科学与技术领域术语提取规范及术语库的建设";973项目(G1998030507-4);863项目(2001AA114040)的支持
术语的自动发现需要有语言知识的支撑。本文建立了“术语部件”的概念 ,通过考察 30 0 0 0条信息科学与技术领域的术语 ,提出了术语部件描述的方法与策略。术语部件主要采用属性描述的方法 ,本文提出了信息科学与技术领域术语部件属性...
关键词:术语部件 术语 自动发现 信息科学 技术领域 属性设计 
唐宋诗之计算机辅助深层研究被引量:24
《北京大学学报(自然科学版)》2001年第5期727-733,共7页胡俊峰 俞士汶 
1998-1999国家社会科学基金 (98BYY0 2 2 );北京大学 985计划资助项目
介绍了北大计算语言学研究所开发的“唐宋诗计算机辅助研究系统”。该系统以全唐诗(481万字 )和宋代部分名家诗 (16 0万字 )组成的语料库为基础 ,运用计算语言学方法对唐宋诗进行分析研究 ,提取了唐宋诗中的词汇 ,计 5万余条目。在对诗...
关键词:语料库语言学 未登录词发现 自动注音 唐宋诗计算机辅助研究系统 计算语言学 汉语信息处理 
检索报告 对象比较 聚类工具 使用帮助 返回顶部