量化词语的领域特征  被引量:1

Quantize the Domain Property of Words

在线阅读下载全文

作  者:刘冬明[1] 杨尔弘[2] 

机构地区:[1]中北大学计算机与控制工程学院,山西太原030051 [2]北京语言大学应用语言学研究所,北京100083

出  处:《中文信息学报》2014年第5期46-50,共5页Journal of Chinese Information Processing

基  金:国家语委"十二五"科研规划项目(YB125-43)

摘  要:词作为最小的语义单位,同领域之间具有复杂的关系,特别是较为常用的词,通常难以明确界定其所属领域。在某些应用中并非必须确定词和领域的明确关系,仅仅依赖词的领域性的量化值就能够取得较好的效果。该文根据大规模语料库中词的关联信息,采用无指导的方法,对词的领域性进行量化,其结果可以作为词的一种特征应用于文本分类、话题检测、信息检索等相关的自然语言处理中。最后,通过和常用的特征——TF*IDF在话题检测应用中进行对比,证明了其有效性。Word, as the smallest semantic unit, has complex relationship with text domains. Especially, it is often difficult to define the exact domain for the commonly used words. In fact, it is not always necessary to establish clear relationship between the word and the domain for real applications. Instead, we can achieve satisfactory results by quantifying the domain property of the words. In this paper, we propose an unsupervised method for quantifying the domain property of words, based on word association information in the large-scale corpus. We valide the proposed value of words' domain property by comparing against the classical TF*IDF measure in the topic detection application.

关 键 词:词的领域性 话题检测 TF* IDF 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象