检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:黄小江[1] 万小军[1] 杨建武[1] 肖建国[1]
机构地区:[1]北京大学计算机科学技术研究所,北京100871
出 处:《中文信息学报》2008年第5期30-38,共9页Journal of Chinese Information Processing
基 金:国家863计划资助项目(2008AA01Z421);国家自然科学基金资助项目(60703064);教育部高等学校博士点新教师基金资助项目(20070001059)
摘 要:比较是常见的表达方式,提取事物之间的比较关系是一项新颖而有实用价值的研究。识别自然语言中的比较句,是提取比较关系的一个重要步骤。目前还没有针对汉语比较句的自动识别研究,语言学上比较句的哪些特征能够应用到自动识别上来是一个亟待研究的问题。该文讨论了汉语比较句的范畴、外延和特征,定义了汉语比较句识别的任务,并提出用SVM分类器将汉语句子分为"比较"和"非比较"两类。该文比较了比较句的语言学特征和统计特征,包括特征词、序列模式等在分类中的作用。实验结果表明:基于类序列规则的SVM分类器能够有效地识别汉语比较句,效果优于传统基于词的文本分类。Comparison is a common kind of expression, and it is novel and substantial research to extract comparative relations between objects. Identifying comparative sentences in natural language is an important step in extracting comparative relations. To our knowledge, there is no research on identifying Chinese comparative sentences automatically. This paper first defines the problem of Chinese comparative sentence identification, and then proposes to use SVM to classify a Chinese sentence into either "comparative" or not. Various linguistic and statistical features have been explored, such as keywords and sequential patterns. Experimental results demonstrate the effectiveness of the sequential patterns, i.e. the classifier with sequential patterns can significantly outperform the traditional termbased classifier. We also empirically investigate the important factors that affect classification performance.
关 键 词:计算机应用 中文信息处理 汉语比较句识别 比较挖掘 文本分类 序列模式
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.173