基于多策略的专业领域术语抽取器的设计  被引量:26

Design of Domain-specific Term Extractor Based on Multi-strategy

在线阅读下载全文

作  者:杜波[1] 田怀凤[1] 王立[1] 陆汝占[1] 

机构地区:[1]上海交通大学计算机系,上海200030

出  处:《计算机工程》2005年第14期159-160,共2页Computer Engineering

摘  要:设计了一个将统计方法与规则方法相结合的专业领域内术语抽取算法。针对专业领域术语的特点,利用多种衡量字符串中各字之间结合“紧密程度”的统计量,先使用阈值分类器抽取出双字候选项;然后再对这些候选项向左右进行一定程度的扩充,从中筛选出符合要求的多字候选项;最后将所得候选项进行过滤,得到最终结果。据此实现了一个以未切分标注的生语料为输入、以专业领域术语为输出的抽取程序,在对多个领域内的语料进行测试后对实验结果进行分析,指出其中存在的问题,对未来的工作作出了展望。This paper designs a multi-strategy based term extracting algorithm combining both statistics-based and rule-based methods. With multiple statistics measuring relationship between words in a string, it firstly uses a threshold classifier to extract two-word candidates from raw corpus, extends these candidates left and right to obtain multi-word candidate terms and at last filters these terms to get domain-specific terms, the final result. It implements an extractor with an unprocessed corpus as input and domain-specific terms as output according to this algorithm. After some experiments on corpora from multiple domains, the paper analyzes the results, figures out problems in it and finally does some expectations.

关 键 词:自然语言处理 术语抽取 多策略 

分 类 号:TP339[自动化与计算机技术—计算机系统结构]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象