基于双层语料过滤器的短语抽取方法  

Text Topic Extraction Based on Double-linguistic-filter

在线阅读下载全文

作  者:林波[1] 林伟佳[2] 郭靖羽[1] 丁东辉[2] 黄翰[2] 

机构地区:[1]中国移动通信集团广东有限公司,广东广州510006 [2]华南理工大学软件学院,广东广州510006

出  处:《计算机与现代化》2015年第12期7-14,共8页Computer and Modernization

摘  要:文本主题提取技术能够有效地精炼文本消息,传统的中文文本由最基本的词语组成,由于词汇本身的信息粒度过小,针对词语进行中文信息抽取不能完整表达文本片段的语义信息。短语本身包含较为丰富的细粒度语义信息,更能表达出文本片段的主题性。本文提出基于双层语料过滤器(词性过滤器与短语扩展规则过滤器)的方法来进行文本语料的冗余信息过滤并抽取文本主题短语信息。实验证明,本文的方法具有一定的可靠性和应用性。The technology of text topic extraction is widely applied to refine the text information. Since the Chinese text is made up of base Chinese words, which contains trivial semantic information, the methods of using the words to express the semantic in- formation of short text is not promised in applications. In contrast, Chinese phrases contain rich fine-gained semantic information and they are preferred to be the representatives of topic of text. Therefore, this paper proposed a method of double-linguistic-filter ( lexical category filter and phrase-extending filter) to weed out the redundant information and extract topic phrases from text. The phrase results are close to the refined semantic expression of text. The experimental result shows that the method we proposed can obtain reliable results, and the method would indicate other new methods on text mining.

关 键 词:短语抽取 信息提取 规则挖掘 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象