基于质子串分解的中文术语自动抽取  被引量:21

Automatic Chinese Term Extraction Based on Decomposition of Prime String

在线阅读下载全文

作  者:何婷婷[1] 张勇[2] 

机构地区:[1]清华大学软件学院 [2]华中师范大学计算机科学系,武汉430079

出  处:《计算机工程》2006年第23期188-190,共3页Computer Engineering

基  金:国家自然科学基金资助项目(60442005);国家"973"计划基金资助项目(2004CB318104);教育部科学技术研究基金资助重点项目(105117);国家语委语言文字应用"十五"规划基金资助重点项目(ZDI105-B01)

摘  要:针对中文术语构成特点,提出了一种基于质子串分解的术语自动抽取方法,将词分为2类:结构简单的质词和有复杂结构的合词;使用参数F-MI抽取结构简单的质词;并在其基础上,进一步使用质子串分解方法抽取具有复杂结构的合词。实验结果显示,该算法有效地提高了中文自动术语抽取的精确度。目前该算法已在国家网络媒体监测项目中得到了应用,并显示了良好的效果。In view of Chinese word characteristic, this paper proposes an ATE algorithm, which is based on the decomposition of prime string. Word can be classified to two groups: prime words with simple structure and combined words with complex structure. Prime words are extracted using the F-MI parameter, and combined words are extracted by the decomposition of prime string. Experiments show the algorithm can effectively improve the precision in Chinese ATE. Now this method has been applied to the project of National Language Resources Monitor & Research Center (Network Media) for the extraction of words online.

关 键 词:质子串分解 术语自动抽取 C—value 互信息 

分 类 号:TP391.43[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象