无词典中文特征词自动抽取的桥接模式滤除算法  被引量:1

Bridge-connection Patterns Filtering Algorithm for Chinese Words Extraction Without Thesaurus

在线阅读下载全文

作  者:宣照国[1] 党延忠[1] 

机构地区:[1]大连理工大学系统工程研究所,辽宁大连116023

出  处:《计算机应用研究》2007年第7期168-170,共3页Application Research of Computers

基  金:国家自然科学基金资助项目(70431001;70271046)

摘  要:提出一种不依赖于词典的抽取文本特征词的桥接模式滤除算法(BPFA)。该算法统计文本中的汉字结合模式及其出现频率,通过消除桥接频率得到模式的支持频率,并依此来判断和提取正确词语。实验结果显示,BPFA能够有效提高分词结果的查准率和查全率。该算法适用于对词语频率敏感的中文信息处理应用,如文本分类、文本自动摘要等。This paper put forward a bridge-connection patterns filtering algorithm (BPFA) for extracting high-frequency words without thesaurus. Firstly, the frequencies of co-occurrence patterns of Chinese characters were counted from documents, then the bridge-connection frequencies were eliminated and therefore obtains the support frequencies of patterns. Afterwards, the words were identified and acquired according to the support frequencies instead of the primary appearing frequencies. The experimental results show that BPFA can improve both precision and recall of extracted lexical set to some extent. This algorithm can be applied to text categorization and automatic summarization.

关 键 词:自动分词 桥接模式滤除算法 中文信息处理 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象