检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]海军工程大学理学院,湖北武汉430033 [2]中国科学院武汉文献情报中心,湖北武汉430071
出 处:《计算机工程与科学》2016年第10期2153-2157,共5页Computer Engineering & Science
基 金:国家自然科学基金(61402516)
摘 要:传统的命名实体识别任务多见于人名、地名、机构名这些普通的命名实体,且大多采用规则文本进行研究。随着电子商务和互联网广告的不断发展,如何从用户的各种不规则的上下文信息中自动识别出商品名称这一特殊的命名实体成为了一个需要解决的问题。为了解决这一问题,建立了一个最大熵模型用于识别论坛发帖这种不规则文本中的商品名称,并探讨了多种特征对于识别效果的影响。这些特征不仅包括传统命名实体识别方法中所使用的局部特征和布朗聚类特征,还包括词的分布式表示这种比较新颖的特征。这些特征按照各种不同的方式进行组合作为模型的输入。在CPROD01评测数据集上的实验结果表明,布朗聚类特征能够有效地提高商品名称识别系统的准确性。Most previous studies on named entity recognition (NER) focus on common names such as persons, organizations, and locations in formal texts. With the development of e-commerce and online advertising,how to recognize product names which are special named entities in informal user's context becomes more and more important. We design a maximum entropy model to recognize product names from forum posts and explore the impact of various features on the performance. These features include not only traditional features used for NER, but also distributed word representations which are novel ones obtained from the new area of machine learning. We compare the results of the experiments using different feature combinations features can improve the as inputs. Experiments accuracy of the product on the CPROD01 dataset show that the Brown cluster name recognition system.
关 键 词:商品名称 不规则文本 最大熵模型 词的分布式表示
分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.43